-
이번에 좋은 기회에 방학기간 동안 LG Aimers 4기로 활동하게 되었다!
블로그에 온라인 강의 내용들을 간단히 요약하여 정리할 예정이고, 해커톤 과정도 정리해서 올려보려고 한다.
본 내용은 LG Aimers 온라인 강좌의 Module1: AI 윤리 및 개론 - KAIST 차미영 교수님 수업 영상자료를 기반으로 하고 있습니다
우선 첫번째 Part1에 관한 내용들은 전체적인 개론과 같은 느낌이라 관련 내용을 간략하게 정리해보려고 한다.
데이터를 다룰 때 유의해야할 점
데이터를 다루고 분석함에 있어서, 공부를 하다보면, 관련된 최신모델을 쓰면, 파라미터 수를 늘리면...! 더 좋은 결과가 나오지 않을가하는 막연한 사고로 이어질 때가 있는 것 같다(맞다 내 얘기다..ㅎ)
물론 Fancy한 기술과 모델도 중요하지만 기본적으로 데이터를 다룰 때 유의해야할 점들이 있는데,
1. 데이터 관점
2. 알고리즘 관점
2가지 관점에서 Module 1의 내용을 전반적으로 정리해보려고 한다.
데이터 관점
1. 인과관계와 상관관계의 구분
학습 결과를 해석함에 있어서 인과관계와 상관관계를 구분하는 것은 가장 기초적인 통계 관련 과목에서부터 언급되는 내용이다.
Correlation does not imply causation
상관관계는 인과관계를 담보하지 않는다.
가장 유명한 예시 중 하나인데, 아이스크림판매량과 상어에 의한 사고의 통계를 보면, 매우 유사하게 움직이고 있음을 볼 수 있다. 이는 두 요소 간 인과관계(둘 중 하나가 원인이 되고 결과가 되는)를 보여주는가?
물론 아니다. 하지만, 이 둘은 여름이 되면 두 사건이 모두 높아진다라는 관계성이 있기에 이 둘의 패턴이 유사한 것이다.
이는 상관관계가 인과관계를 담보하지 않음을 보여주며, 결과해석에 우리가 유의해야함을 보여준다.
짧은생각
그래도 상관관계를 보여준다는 것은 두 요소를 결정하는데에 동일한 factor가 포함된다는 것을 의미하지 않는가?? 그렇다면 해당 사실만으로도 충분히 유의미한 결과가 아닌가??하는 생각이 든다2. Error Bar와 통계적 유의미성(p-value, 표준편차)
Error bars are graphical representations of the variability of data and used on graphs to indicate the
error or uncertainty in a reported measurement. They give a general idea of how precise a measurement is, or conversely, how far from the reported value the true (error free) value might be 출처: 위키피디아Error bar란 데이터를 시각화 하여 보여주었을 때, 해당 결과에 대한 에러의의 범위(Error의 범위임으로 대다수 표준편차를 이용한 범위를 보여준다)를 나타내는 bar를 의미한다. 혹은 유의수준 내에 해당 값이 있는지, 통계학적 관점에서 보여주기도 한다.
Error bar를 이용하지 않더라도 적합한 통계적 유의미성을 검증하는 단계는 필요하다. 또한 데이터의 표준화, 전처리 과정 등 EDA, 데이더 자체를 충분히 살펴보는 것은 유의미하다.
3. 충분한 데이터와 좋은 데이터
충분한 양의 데이터는 학습에 필수적이다. 또한 우리의 목적에 맞는 좋은 데이터인지 확인하는 과정 또한 중요하다.
한 예로 NLP를 이용한 LLM학습과정에서 판타지 관련 스토리를 작성하기 위해서 학습을 진행시켰을 때, 현재에 관련된 텍스트 데이터가 들어갔더니, 아메리카노를 마셨어~ 등 원치 않는 결과를 출력하는 경우가 있었다고 한다.
동시에 Underfitting, Overfitting 여부, Train과 Test데이터를 구분하기, 등 기본적인 사항들을 잊지 말자.
4. Point at Handling Web data & AI Ethics
Web Data 등 정제되지 않은 데이터를 다룰 때, 데이터가 실제로 대중, 혹은 전체를 반영하고 있는지 생각해보자.
특히 온라인 상의 데이터는 편향된 데이터들이 더욱 더 많이 분포할 가능성이 있다.
추가적으로 데이터를 수집하고 이용하는데 있어서 법적 문제는 없는지 확인해야한다.
각 나라 별 법적 문제 뿐만 아니라, 각 기업 별로도 데이터 이용에 제한을 두는 경우가 많다.
알고리즘 관점
1. 알고리즘의 목적과 설명력
대다수의 현재 알려진 인공지능 알고리즘은 설명력보다는 성능에 초점을 둔 경우가 많다.
이는 흔히들 말하는 Black box 모델인 경우에 해당한다.
하지만 각 알고리즘이 사용되는 곳, 모델이 풀고자하는 문제에 따라서 보수적이고 안정적으로 결정을 내려야하는 때에는 성능을 다소 희생하더라도 설명력을 올리는 것이 중요하다.
관련 예시로는 세관 업무, 의료, 법률적인 문제 해결 등이 있을 것이다.
강의에서 든 예시에서는 세관 업무에 사용되는 알고리즘을 개발할 일이 있으셨는데, 그 때 당시에 개발한 모델에서 모델의 정확도는 좋았지만, 해당 모델이 왜 이런 판단을 했는지 세관업무를 하시는 분들께서 이해를 하지 못하여 모델을 실제 현장에서 적용하는데는 어려움이 있으셨다는 실제적인 예시를 들어주셨다.
이런 설명력을 가시화해서 보여주는 것을 post hoc explainablity라고 한다. 물론 처음부터 해석 가능한 모델인 interpretable한 모델을 만드는 것이 이상적이겠지만, 이는 매우 힘들다고 알려져 있다.
2. 알고리즘의 편향성
설명력과 이어지는 부분일 수도 있다. 우리가 가지고 있는 데이터가 편향성을 띄고 있을 때, 알고리즘 또한 편향적인 결과를 보일 수 밖에 없다. 대표적인 예시로
COMPAS는 미국의 일부 주에서 피고의 범죄 재범 가능성을 계산해 판사에게 점수형태로 제공하는 알고리즘이다. 해당 알고리즘의 문제는 인종을 변수로 포함하고 있지 않음에도, 흑인의 재범 가능성을 백인보다 2배 위험하다고 판단하는 등 인종차별적인 결과를 보였다는 것이다. MIT에서는 이를 해결하기 위해 변수를 조정해 인종과 관계없이 동일한 수감 비율이 적용되도록 했더니, 동일 범행에 대해 인종별로 다른 처벌을 하는 결과가 됐다. 이는 각 인종별로 범행 뒤 검거되는 비율이 달랐기 때문이다. 브로와드 카운티 자료에서 흑인 피고는 52%가 체포됐지만, 백인 피고는 39%만이 체포됐다. 이는 알고리즘을 수정하는 것으로는 불공정 문제를 근본적으로 해결할 수 없음을 보여주었다.
결국 데이터가 편향되면 알고리즘의 결과 또한 편향될 수 밖에 없다.
우리는 항상 알고리즘이 어떤 편향을 가지고 있는지 데이터에 들어있는 것을 반영하는 것은 피할 수 없지만, 우리가 만든 알고리즘이 사회의 편향을 조장하는 것은 아닌지 항상 유의해야할 것이다.
데이터를 다루는 태도
데이터 사인언티스트나 관련 직종에서 커리어를 쌓을 때, 가장 중요하는 것은 태도이다. 정확히는 데이터에 관한 관심과 Hetrogeneous(이종의)한 데이터들을 결합하고 분석하는 능력이라고 생각한다. 관련 사례들 중 가장 기억에 남는 것은 아무래도 금융 관련 분야에 대한 이야기인데, 어느 책에서 본 내용으로는 금융 분야에서 산업을 분석하기 위해 위성사진까지도 이용한다라는 이야기를 본적이 있다.
결국 우리는 기존의 산업과 문제를 새롭게 정의하는 일을 하고 있다. 이를 위해 다양한 관점에서 문제를 바라볼 수 있어야할 것이다.
마음을 설레게 할 정도로 높은 목표와 비전을 가지고 중요한 일에 역량을 쏟을 수 있기를 바라며, 나는 어떤 산업과 문제를 풀고 싶은지 항상 고민해보아야 할 것이다.
'전공&대외활동 이야기 > 2024 LG AIMERS 4기 활동' 카테고리의 다른 글
[LGAimers] Ensemble (1) 2024.01.25 [LGAimers] Support Vector Machine(SVM) (1) 2024.01.24 [LG AiMERS] Linear Classification (0) 2024.01.24 [LG AiMERS] Convex Optimization (2) 2024.01.23 [LG AiMERS] Machine Learning 개론 (0) 2024.01.20