전공&대외활동 이야기
-
[자연어처리론] Word vectors & Word2Vec전공&대외활동 이야기/자연어처리론(Stanford CS224N&HYU class)) 2024. 10. 30. 13:11
Word Vectors앞장에서 얘기한 것과 같이 text를 vector로 변환해야한다. 이를 Word Vectors라고 한다. 정의는 다음과 같다. A term used for the representation of words, typically in the form of a real-valued vectorthat encodes the meaning of the word such that the words that are closer in the vector space are expected to be similar in meaning. 즉, 비슷한 의미를 가진 단어들은 vector space상에 더 가깝게 아닌 것은 더 멀리 위치시시키는 것을 목적으로 한다. Representing Words as ..
-
[자연어처리론] 자연어처리 개요전공&대외활동 이야기/자연어처리론(Stanford CS224N&HYU class)) 2024. 10. 30. 10:37
본 자료는 한양대학교 자연어처리론 김태욱 교수님의 자료 및 Standofrd NLP CS224N과 추가적인 자료들을 바탕으로 작성하였습니다What is NLP?Natural Language Processing (NLP) is a field of artificial intelligence that focuses on the interaction between computers and humans through natural language. The ultimate goal of NLP is to enable computers to understand, interpret, and generate human language in a way that is both meaningful and useful. 즉, ..
-
[TAF] 시계열 Air Passenger Forcasting Project전공&대외활동 이야기/전공 프로젝트 모음 2024. 7. 1. 16:34
과제uploaded dataset(AirPassengers.csv) provides number of monthly passengers of airlines over a period of 12 years (from 1949.01 to 1960.12). Please find the best ARMA model by satisfying the conditions in below.Use the first 10 years for estimation and rest of 2 years for one-step ahead forecasting.Please check the stationarity. If needed, you may need to use a d-th difference of yt or ARIMA(p, ..
-
[Applied Data Analytics] Pickle? CSV? 데이터 파일의 형식에 관해전공&대외활동 이야기/전공 프로젝트 모음 2024. 3. 31. 17:18
응용데이터애널리틱스 과목을 들으면서 교수님께서 데이터 파일을 pickle로 전달해주신다고 말씀해주셨다..! CSV를 주로 많이 사용하는데, 실무에서는 Pickle를 더 많이 사용한다고 말씀해주셔서 관련 내용을 간단히 정리해보기로 하였다. Pickle File: 자료형을 변환 없이 그대로 파일로 저장하자 pickle 파일은 파이썬에서 객체를 직렬화(serialization)하여 저장하기 위한 바이너리 형식의 파일이다. Serialization: 직렬화는 객체를 파일에 저장하거나 네트워크를 통해 전송하기 위해 객체를 byte stream으로 변환하는 과정을 말한다. 이를 통해 파이썬에서 생성된 모든 객체를 저장하고, 파이썬 데이터 유형을 유지한 형태로 파일을 전달할 수 있다. 또한 바이너리 형식이기에 효율적..
-
[NLP+Finance] nlp&금융 관련 논문 리스트업 개요전공&대외활동 이야기/프로메테우스5기_NLP+ 금융프로젝트 2024. 3. 12. 12:04
이번학기부터 새로운 활동으로 인공지능 동아리인 프로메테우스에서 5기로 활동하게 되었다..! 들어가게 된 이유를 간단히 밝히면 졸업반을 앞두고 다양한 분야에서 연구나 프로젝트를 한번 경험하고 가보고 싶다는 생각이 강했고, 프로젝트를 할 수 있는 동아리를 찾던 중에(물론 현재 랩실에서 다른 플젝도 진행중이지만..ㅎㅎ) 알게되어서 지원하게 되었다. 또 추가로 여름에 있을 교육봉사도 지원을 생각하게된 계기였다. 사족은 여기까지만 남기고, 1학기에 맡은 프로젝트는 NLP와 금융을 합해서 하는 분야인데, 그에 앞서 기본적인 background 및 연구 동향들을 살펴보고자 몇편의 논문을 간단히 읽어보려고 한다. 특히 데이터 출처와 적용한 분야, 결과를 위주로 살펴보려 계획중이다. https://github.com/m..
-
[LG Aimers] 해커톤 마무리&수료 후기전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 3. 6. 21:33
해커톤 결과는 다음과 같이 48위..!라는 살짝 아쉬운 결과를 얻었다(800팀 중 48위면 좋은 결과긴 하다!!) 모든 팀원들이 정말 고생했기에, 더 좋은 결과로 마무리할 수 있었으면 좋았을텐데 하는 아쉬움은 남지만..!(특히 점수대가 많이 몰려있어서 더 아쉽다 😅😂) 정말 많은 것을 배웠었다. 특히 팀으로 이렇게 데이터 분석 및 모델링 대회에 나가보는 것은 처음이라 전체적인 프로세스부터 데이터 처리방법까지 많은 것을 배운 것 같다. 너무 좋은 팀원분들과 함께해서 많이 부족했지만 좋은 결과를 얻은거 같아서 대회가 끝난 지금도 살짝의 아쉬움과 미련, 그리고 고마움이 많이 남은 것 같다. 해커톤을 하면서 배운 내용은 다음과 같다. 1. 모델에 우선 빠르게 돌려보자! 생각보다 Train 점수와 Test 점수의..
-
[LG Aimers] 영업성공률 예측 모델 개발기 -전처리를 중심으로전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 3. 6. 21:12
이번에는 팀에서 어떤 방식으로 데이터들을 분석했고, 전처리를 했는지에 관해 작성해보려고한다. 핵심적인 내용을 정리하면 아래와 같다. 1. label data가 imbalance한지 확인하자: 대다수의 최근 모델들은 이에 대응하는 하이퍼파라미터가 존재한다 2. Feature에 따라 모델을 잘 선정하자: 범주형이 많았기에 CatBoost 모델을 이용. XGBoost 이용시 보다 눈에 띄게 성능이 증가했다. 3. 데이터 전처리에 있어서 주어진 데이터에만 한정하지 말자: product 등 다양한 데이터들은 여러가지 방면으로 해석가능하다(eg. 회사 사이트의 제품 카테고리를 이용) 4. 모델의 결과를 분석하자: 어떤 feature가 어느정도의 영향을 미쳤는지 확인하고, 주요도가 떨어지는 특성은 제거하거나, 주요도..
-
[LG Aimers] 영업성공률 예측 모델 개발기 1(해커톤)전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 2. 21. 20:44
LG Aimers는 phase1은 강의 phase2는 해커톤으로 이루어지는데, 이번 4기에서 저는 팀원 4명과 함께 해당 해커톤에 참석하였습니다. 그리고 해커톤을 진행하면서 일부 자료를 기록해보았습니다. 개요 및 목표 이번 해커톤에서는 B2B 마케팅에서 전환율을 예측하여 마케팅 업무에 도움을 주기 위한 예측 모델을 개발하는 것이 목표로, 아마 영업 과정에서 전환 가능성이 높은 고객에게 영업 자원을 집중하기 위해 고객의 전환 여부를 예측하는 것이 목적으로 보인다. 이에 따라서 고객의 다양한 feature data를 기반으로 해당 고객이 전환고객일지 아닐지를 예측하는 모델을 개발해보았다. 데이터 EDA 및 전처리 데이터는 아래와 같다. 이때 유형은 float는 f로, string은 s 등으로 앞글자만 표시했..