전체 글
-
[NLP+Finance] nlp&금융 관련 논문 리스트업 개요전공&대외활동 이야기/프로메테우스5기_NLP+ 금융프로젝트 2024. 3. 12. 12:04
이번학기부터 새로운 활동으로 인공지능 동아리인 프로메테우스에서 5기로 활동하게 되었다..! 들어가게 된 이유를 간단히 밝히면 졸업반을 앞두고 다양한 분야에서 연구나 프로젝트를 한번 경험하고 가보고 싶다는 생각이 강했고, 프로젝트를 할 수 있는 동아리를 찾던 중에(물론 현재 랩실에서 다른 플젝도 진행중이지만..ㅎㅎ) 알게되어서 지원하게 되었다. 또 추가로 여름에 있을 교육봉사도 지원을 생각하게된 계기였다. 사족은 여기까지만 남기고, 1학기에 맡은 프로젝트는 NLP와 금융을 합해서 하는 분야인데, 그에 앞서 기본적인 background 및 연구 동향들을 살펴보고자 몇편의 논문을 간단히 읽어보려고 한다. 특히 데이터 출처와 적용한 분야, 결과를 위주로 살펴보려 계획중이다. https://github.com/m..
-
[AI 논문 다반사] AI 주요 학회지 및 논문 찾아보기Paper Review(논문이야기) 2024. 3. 11. 13:57
최근 ICPBL 캡스톤 수업을 들으며 딥러닝 분야의 2~3개년치 논문들을 읽고 리뷰할 일이 필요해서 주요 학회지에서 논문을찾아보는 법에 관해 간단히 정리하게 되었다. 주요학회 구분 딥러닝의 주요학회지는 다음과 같고, 대략 아래의 구분을 따라간다. (ML/DL 전반) NeurIPS, ICML, ICLR, AAAI, IJCAI (NLP) ACL, EMNLP (Computer Vision) CVPR, ICCV, ECCV (Recommender System) RecSys,SIGIR 각 학회에서 발표된 논문들은 해당 학회 이름으로 검색하면 사이트를 통해 확인 가능하다. 아래는 Nerips의 사이트이다. https://blog.neurips.cc/2023/12/11/announcing-the-neurips-2023..
-
[Pandas] Stat series를 dataframe으로 바꾸는법개발 이야기/TIL 2024. 3. 10. 16:00
최근에 통계 관련 scipy를 import해서 사용하던 중에 해당 결과를 dataframe으로 바꾸어서 이것저것 다루고 싶은데 여러 어려움을 겪다가 드디어 알아낸 방법을 간단히 작성해보려고 한다. 아래의 stackoverflow와 gpt를 열심히 괴롭혀서 알아낸 방법이다. https://stackoverflow.com/questions/51734180/converting-statsmodels-summary-object-to-pandas-dataframe Converting statsmodels summary object to Pandas Dataframe I am doing multiple linear regression with statsmodels.formula.api (ver 0.9.0) on Wi..
-
[LG Aimers] 해커톤 마무리&수료 후기전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 3. 6. 21:33
해커톤 결과는 다음과 같이 48위..!라는 살짝 아쉬운 결과를 얻었다(800팀 중 48위면 좋은 결과긴 하다!!) 모든 팀원들이 정말 고생했기에, 더 좋은 결과로 마무리할 수 있었으면 좋았을텐데 하는 아쉬움은 남지만..!(특히 점수대가 많이 몰려있어서 더 아쉽다 😅😂) 정말 많은 것을 배웠었다. 특히 팀으로 이렇게 데이터 분석 및 모델링 대회에 나가보는 것은 처음이라 전체적인 프로세스부터 데이터 처리방법까지 많은 것을 배운 것 같다. 너무 좋은 팀원분들과 함께해서 많이 부족했지만 좋은 결과를 얻은거 같아서 대회가 끝난 지금도 살짝의 아쉬움과 미련, 그리고 고마움이 많이 남은 것 같다. 해커톤을 하면서 배운 내용은 다음과 같다. 1. 모델에 우선 빠르게 돌려보자! 생각보다 Train 점수와 Test 점수의..
-
[LG Aimers] 영업성공률 예측 모델 개발기 -전처리를 중심으로전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 3. 6. 21:12
이번에는 팀에서 어떤 방식으로 데이터들을 분석했고, 전처리를 했는지에 관해 작성해보려고한다. 핵심적인 내용을 정리하면 아래와 같다. 1. label data가 imbalance한지 확인하자: 대다수의 최근 모델들은 이에 대응하는 하이퍼파라미터가 존재한다 2. Feature에 따라 모델을 잘 선정하자: 범주형이 많았기에 CatBoost 모델을 이용. XGBoost 이용시 보다 눈에 띄게 성능이 증가했다. 3. 데이터 전처리에 있어서 주어진 데이터에만 한정하지 말자: product 등 다양한 데이터들은 여러가지 방면으로 해석가능하다(eg. 회사 사이트의 제품 카테고리를 이용) 4. 모델의 결과를 분석하자: 어떤 feature가 어느정도의 영향을 미쳤는지 확인하고, 주요도가 떨어지는 특성은 제거하거나, 주요도..
-
[Graph] Graph Neural Networks 개론(개념정리)ML&DL 이야기/ML 2024. 3. 4. 23:10
GCN 논문 리딩을 진행하던 중, Graph에 관한 전반적인 지식이 부족하다고 느껴서, 간단히 개념 등을 정리하려고 한다. 자연어처리 관련 논문들을 읽었을 때도 느낀거지만, 전체적인 흐름을 알고 논문을 읽으면 훨씬 수훨하게 리딩이 되었기 때문에, 이번 정리를 통해 전반적인 개념과 흐름을 잡는 것을 목표로 하였다. 이번 내용정리는 "A comprehensive servey on Graph neural networks"와 이를 정리한 thejb.ai님과 glaceyes님의 블로그 whatsup의 velog을 참고, 왓챠 Medium의 글을 기반으로 정리하였고, 추가적인 출처들은 따로 기재하였다. Graph Graph는 wiki에 따르면 아래와 같다(이산수학에서의 graph) In discrete mathem..
-
[NLP processing] 자연어 데이터를 전처리해보자!ML&DL 이야기/ML 2024. 2. 23. 19:09
자연어 처리과정 자연어처리 과정은 아래의 단계를 거친다. 1. Preprocessing: 자연어를 정리하는 과정, token화가 포함됨 불용어 제거(Stopwords removing), 형태소 분석(Stemming), 표제어 추출(Lemmatization) 2. Vectorization: 정수 인코딩으로 변형하는 과정(임베딩 시키기 위한 전과정) One-hot Encoding, Count vectorization, Tfidf, Padding 3. Embedding(실제 측정 차원으로 임베딩 시키는 과정) Word2vec, Doc2vec, Glove, Fasttext 4. Modeling(자연어를 입력하고 원하는 task를 수행하는 과정) GRU, LSTM, Attention Preprocessing & ..
-
[LG Aimers] 영업성공률 예측 모델 개발기 1(해커톤)전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 2. 21. 20:44
LG Aimers는 phase1은 강의 phase2는 해커톤으로 이루어지는데, 이번 4기에서 저는 팀원 4명과 함께 해당 해커톤에 참석하였습니다. 그리고 해커톤을 진행하면서 일부 자료를 기록해보았습니다. 개요 및 목표 이번 해커톤에서는 B2B 마케팅에서 전환율을 예측하여 마케팅 업무에 도움을 주기 위한 예측 모델을 개발하는 것이 목표로, 아마 영업 과정에서 전환 가능성이 높은 고객에게 영업 자원을 집중하기 위해 고객의 전환 여부를 예측하는 것이 목적으로 보인다. 이에 따라서 고객의 다양한 feature data를 기반으로 해당 고객이 전환고객일지 아닐지를 예측하는 모델을 개발해보았다. 데이터 EDA 및 전처리 데이터는 아래와 같다. 이때 유형은 float는 f로, string은 s 등으로 앞글자만 표시했..