분류 전체보기
-
[Pandas] Stat series를 dataframe으로 바꾸는법개발 이야기/TIL 2024. 3. 10. 16:00
최근에 통계 관련 scipy를 import해서 사용하던 중에 해당 결과를 dataframe으로 바꾸어서 이것저것 다루고 싶은데 여러 어려움을 겪다가 드디어 알아낸 방법을 간단히 작성해보려고 한다. 아래의 stackoverflow와 gpt를 열심히 괴롭혀서 알아낸 방법이다. https://stackoverflow.com/questions/51734180/converting-statsmodels-summary-object-to-pandas-dataframe Converting statsmodels summary object to Pandas Dataframe I am doing multiple linear regression with statsmodels.formula.api (ver 0.9.0) on Wi..
-
[LG Aimers] 해커톤 마무리&수료 후기전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 3. 6. 21:33
해커톤 결과는 다음과 같이 48위..!라는 살짝 아쉬운 결과를 얻었다(800팀 중 48위면 좋은 결과긴 하다!!) 모든 팀원들이 정말 고생했기에, 더 좋은 결과로 마무리할 수 있었으면 좋았을텐데 하는 아쉬움은 남지만..!(특히 점수대가 많이 몰려있어서 더 아쉽다 😅😂) 정말 많은 것을 배웠었다. 특히 팀으로 이렇게 데이터 분석 및 모델링 대회에 나가보는 것은 처음이라 전체적인 프로세스부터 데이터 처리방법까지 많은 것을 배운 것 같다. 너무 좋은 팀원분들과 함께해서 많이 부족했지만 좋은 결과를 얻은거 같아서 대회가 끝난 지금도 살짝의 아쉬움과 미련, 그리고 고마움이 많이 남은 것 같다. 해커톤을 하면서 배운 내용은 다음과 같다. 1. 모델에 우선 빠르게 돌려보자! 생각보다 Train 점수와 Test 점수의..
-
[LG Aimers] 영업성공률 예측 모델 개발기 -전처리를 중심으로전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 3. 6. 21:12
이번에는 팀에서 어떤 방식으로 데이터들을 분석했고, 전처리를 했는지에 관해 작성해보려고한다. 핵심적인 내용을 정리하면 아래와 같다. 1. label data가 imbalance한지 확인하자: 대다수의 최근 모델들은 이에 대응하는 하이퍼파라미터가 존재한다 2. Feature에 따라 모델을 잘 선정하자: 범주형이 많았기에 CatBoost 모델을 이용. XGBoost 이용시 보다 눈에 띄게 성능이 증가했다. 3. 데이터 전처리에 있어서 주어진 데이터에만 한정하지 말자: product 등 다양한 데이터들은 여러가지 방면으로 해석가능하다(eg. 회사 사이트의 제품 카테고리를 이용) 4. 모델의 결과를 분석하자: 어떤 feature가 어느정도의 영향을 미쳤는지 확인하고, 주요도가 떨어지는 특성은 제거하거나, 주요도..
-
[Graph] Graph Neural Networks 개론(개념정리)ML&DL 이야기/ML 2024. 3. 4. 23:10
GCN 논문 리딩을 진행하던 중, Graph에 관한 전반적인 지식이 부족하다고 느껴서, 간단히 개념 등을 정리하려고 한다. 자연어처리 관련 논문들을 읽었을 때도 느낀거지만, 전체적인 흐름을 알고 논문을 읽으면 훨씬 수훨하게 리딩이 되었기 때문에, 이번 정리를 통해 전반적인 개념과 흐름을 잡는 것을 목표로 하였다. 이번 내용정리는 "A comprehensive servey on Graph neural networks"와 이를 정리한 thejb.ai님과 glaceyes님의 블로그 whatsup의 velog을 참고, 왓챠 Medium의 글을 기반으로 정리하였고, 추가적인 출처들은 따로 기재하였다. Graph Graph는 wiki에 따르면 아래와 같다(이산수학에서의 graph) In discrete mathem..
-
[NLP processing] 자연어 데이터를 전처리해보자!ML&DL 이야기/ML 2024. 2. 23. 19:09
자연어 처리과정 자연어처리 과정은 아래의 단계를 거친다. 1. Preprocessing: 자연어를 정리하는 과정, token화가 포함됨 불용어 제거(Stopwords removing), 형태소 분석(Stemming), 표제어 추출(Lemmatization) 2. Vectorization: 정수 인코딩으로 변형하는 과정(임베딩 시키기 위한 전과정) One-hot Encoding, Count vectorization, Tfidf, Padding 3. Embedding(실제 측정 차원으로 임베딩 시키는 과정) Word2vec, Doc2vec, Glove, Fasttext 4. Modeling(자연어를 입력하고 원하는 task를 수행하는 과정) GRU, LSTM, Attention Preprocessing & ..
-
[LG Aimers] 영업성공률 예측 모델 개발기 1(해커톤)전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 2. 21. 20:44
LG Aimers는 phase1은 강의 phase2는 해커톤으로 이루어지는데, 이번 4기에서 저는 팀원 4명과 함께 해당 해커톤에 참석하였습니다. 그리고 해커톤을 진행하면서 일부 자료를 기록해보았습니다. 개요 및 목표 이번 해커톤에서는 B2B 마케팅에서 전환율을 예측하여 마케팅 업무에 도움을 주기 위한 예측 모델을 개발하는 것이 목표로, 아마 영업 과정에서 전환 가능성이 높은 고객에게 영업 자원을 집중하기 위해 고객의 전환 여부를 예측하는 것이 목적으로 보인다. 이에 따라서 고객의 다양한 feature data를 기반으로 해당 고객이 전환고객일지 아닐지를 예측하는 모델을 개발해보았다. 데이터 EDA 및 전처리 데이터는 아래와 같다. 이때 유형은 float는 f로, string은 s 등으로 앞글자만 표시했..
-
[Transformer] Attention is All you need(NIPS 2017)Paper Review(논문이야기) 2024. 2. 19. 14:41
https://arxiv.org/abs/1706.03762 Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arxiv.org https://github.com/huggingface/transformers?tab=readme-ov-file 공식 transfo..
-
[NLP] BLEU Score(Bilingual Language Evaluation Understudy)ML&DL 이야기/ML 2024. 2. 16. 17:55
기계번역에서 자주사용되는 지표인 BLEU는 연속된 단어의 조합인 문장을 1:1 비교하지 않고, 연속된 단어의 정확도를 측정하고자 하는 방식이다. 그 전에 Precision과 Recall에 관해 알아보자. 본 내용은 https://amber-chaeeunk.tistory.com/94 을 바탕으로 작성하였습니다 Precision & Recall 우선 기본적인 Precision & Recall에 관한 정의를 보기 위해 2*2 matrix를 그려보자. 각 Case를 보면 True Positive(TP) : 실제 True인 정답을 True라고 예측 (정답) False Positive(FP) : 실제 False인 정답을 True라고 예측 (오답) False Negative(FN) : 실제 True인 정답을 Fals..