전공&대외활동 이야기/2024 LG AIMERS 4기 활동
-
[LG Aimers] 해커톤 마무리&수료 후기전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 3. 6. 21:33
해커톤 결과는 다음과 같이 48위..!라는 살짝 아쉬운 결과를 얻었다(800팀 중 48위면 좋은 결과긴 하다!!) 모든 팀원들이 정말 고생했기에, 더 좋은 결과로 마무리할 수 있었으면 좋았을텐데 하는 아쉬움은 남지만..!(특히 점수대가 많이 몰려있어서 더 아쉽다 😅😂) 정말 많은 것을 배웠었다. 특히 팀으로 이렇게 데이터 분석 및 모델링 대회에 나가보는 것은 처음이라 전체적인 프로세스부터 데이터 처리방법까지 많은 것을 배운 것 같다. 너무 좋은 팀원분들과 함께해서 많이 부족했지만 좋은 결과를 얻은거 같아서 대회가 끝난 지금도 살짝의 아쉬움과 미련, 그리고 고마움이 많이 남은 것 같다. 해커톤을 하면서 배운 내용은 다음과 같다. 1. 모델에 우선 빠르게 돌려보자! 생각보다 Train 점수와 Test 점수의..
-
[LG Aimers] 영업성공률 예측 모델 개발기 -전처리를 중심으로전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 3. 6. 21:12
이번에는 팀에서 어떤 방식으로 데이터들을 분석했고, 전처리를 했는지에 관해 작성해보려고한다. 핵심적인 내용을 정리하면 아래와 같다. 1. label data가 imbalance한지 확인하자: 대다수의 최근 모델들은 이에 대응하는 하이퍼파라미터가 존재한다 2. Feature에 따라 모델을 잘 선정하자: 범주형이 많았기에 CatBoost 모델을 이용. XGBoost 이용시 보다 눈에 띄게 성능이 증가했다. 3. 데이터 전처리에 있어서 주어진 데이터에만 한정하지 말자: product 등 다양한 데이터들은 여러가지 방면으로 해석가능하다(eg. 회사 사이트의 제품 카테고리를 이용) 4. 모델의 결과를 분석하자: 어떤 feature가 어느정도의 영향을 미쳤는지 확인하고, 주요도가 떨어지는 특성은 제거하거나, 주요도..
-
[LG Aimers] 영업성공률 예측 모델 개발기 1(해커톤)전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 2. 21. 20:44
LG Aimers는 phase1은 강의 phase2는 해커톤으로 이루어지는데, 이번 4기에서 저는 팀원 4명과 함께 해당 해커톤에 참석하였습니다. 그리고 해커톤을 진행하면서 일부 자료를 기록해보았습니다. 개요 및 목표 이번 해커톤에서는 B2B 마케팅에서 전환율을 예측하여 마케팅 업무에 도움을 주기 위한 예측 모델을 개발하는 것이 목표로, 아마 영업 과정에서 전환 가능성이 높은 고객에게 영업 자원을 집중하기 위해 고객의 전환 여부를 예측하는 것이 목적으로 보인다. 이에 따라서 고객의 다양한 feature data를 기반으로 해당 고객이 전환고객일지 아닐지를 예측하는 모델을 개발해보았다. 데이터 EDA 및 전처리 데이터는 아래와 같다. 이때 유형은 float는 f로, string은 s 등으로 앞글자만 표시했..
-
[LG AiMERS] Part 2-2 Matrix Decomposition(SVD, Eigen Decompostion)전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 2. 12. 18:20
본 내용은 LG Aimers 강좌 중, KAIST 신진우 교수님의 강좌 내용을 바탕으로 작성되었습니다 선형대수 관련 내용들을 정리하려고 했었는데, 관련 내용들을 정리하기 전에 간략하게 훑어보는 느낌으로 정리해보려고 한다. 간략한 각 개념들의 정의와 그 흐름만 정리해보았다. 특히 행렬분해에 관련된 내용들을 위주로 작성하였다. 특히 Decomposition에 관해 알아보자. Decomposition, Factorization(분해) 분해는 하나의 행렬을 두개, 혹은 3개 이상의 행렬 곱으로 행렬을 표현한 것을 의미한다. A = BC 분해에 관해 알아야하는 이유는 무엇일까? 그 이유는 각 분해를 통해 행렬의 계산의 복잡성을 줄일 수 있기 때문이다. 예를 들어 LU분해의 경우, 일반적으로 L,U모두 가우스 소거..
-
[LgAimers] Casual Inference for Special Cases(다양한 경우에 대한 Causal Inference 적용방법)전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 1. 27. 18:29
지금가지 배운 인과추론에 관한 개념들, 특히 Do calculus와 베이지안 정리를 기본으로하여 아래의 다양한 상황에 대해서 예시들을 통해 대응해보자. Genralized Identifiability(여러 Case에서 do Calculus 적용) Example1: Cholestrol level & Heart Attack 위의 상황의 DAG가 주어져있다고 해보자. 우리가 궁금한 것은 Q, 즉, 콜레스트롤 level이 심장에 주는 영향을 확인해보려고 한다. What we want to Know: Q = P(y|do(x)) 하지만 기존 문제와 다르게 교란변수 Z(diet)와의 bi directed edge가 있어서 backdoor 방법을 사용할 없다. 하지만 우리는 Z, diet에 대한 실험으로 X,Y의 변화..
-
[LGAimers] Calculating Causal Effect(인과추론 계산법) & BackDoor criterion전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 1. 26. 16:32
Causal Effect Causal Effect를 계산하기 전에 그 정의부터 알아보고 가자. 저번 글에서 정리한 do operator를 이용해 정리된 원인 X->Y의 인과관계는 P(y|do(x))라고 표현하고, 이를 더 줄여써서 $P_x(y)$라고 한다. 이는 X에서 Y의 확률분포를 의미한다. Computing Causal Effects 계산하고자 하는 P(y|do(x))를 위해 관측데이터와 Causal Diagram이 존재할 때, 인과추론 알고리즘을 통해 이를 계산한다. 이 때 값을 특정할 수 있을 때만 우리가 값을 구할 수 있다(다른 방법론으로, 모델로 graph를 분석했을 때 다른 값이 나오면 특정할 수 없다, 인과효과가 여러 개이다) 위의 예시를 보자. 우선 Z는 교란변수이고, W는 mediat..
-
[LGAimers] 인과추론에 관한 개념정리전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 1. 25. 14:39
본 강의는 LGAimers Module 5 인과추론 강의 중 서울대학교 이상학 교수님의 강의 내용을 정리한 것입니다 추가 첨부자료로 GSTIM의 테크트랜드 자료를 사용하였습니다(https://www.gsitm.com/pr/techblogdetail?prTechBlogSeqId=5&langCd=KR) GS ITM AI Lab 정용우님 작성 인과성을 알아야하는 이유는 무엇일까? 까마귀가 날자 배가 떨어지는 현상을 관측했다고 해보자. 그럼 우리는 이를 보고 "까마귀가 나는 것과 배가 떨어지는 것은 관련이 있다"라고 말을 할 수도 있을 것이다. 이를 Correlation, 상관성이라고 한다. 하지만 이것이 까마귀가 난 현상이 배가 떨어지는 현상의 원인이라는 것을 보장하지는 않을 것이다.(물론 이 예시의 경우 상..
-
[LGAimers] Ensemble전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 1. 25. 10:05
본 내용은 Module 4 이화여자대학교 강제원 교수님의 강의 내용을 요약한 것입니다 Ensemble(앙상블) Supervised Learning Task에서 성능을 향상시킬 수 있는 방법으로 다양한 다른 모델을 모아서 예측에 사용하는 방법이다. 위키피디아에 따르면 다음과 같다. Ensemble methods use multiple learning algorithms to obtain better predictive performance than could be obtained from any of the constituent learning algorithms alone. - 앙상블 기법은 여러 학습 알고리즘을 사용하여 구성 학습 알고리즘만으로 얻을 수있는 것보다 더 나은 예측 성능을 얻습니다 - 각 ..