분류 전체보기
-
[Applied Data Analytics] Pickle? CSV? 데이터 파일의 형식에 관해전공&대외활동 이야기/전공 프로젝트 모음 2024. 3. 31. 17:18
응용데이터애널리틱스 과목을 들으면서 교수님께서 데이터 파일을 pickle로 전달해주신다고 말씀해주셨다..! CSV를 주로 많이 사용하는데, 실무에서는 Pickle를 더 많이 사용한다고 말씀해주셔서 관련 내용을 간단히 정리해보기로 하였다. Pickle File: 자료형을 변환 없이 그대로 파일로 저장하자 pickle 파일은 파이썬에서 객체를 직렬화(serialization)하여 저장하기 위한 바이너리 형식의 파일이다. Serialization: 직렬화는 객체를 파일에 저장하거나 네트워크를 통해 전송하기 위해 객체를 byte stream으로 변환하는 과정을 말한다. 이를 통해 파이썬에서 생성된 모든 객체를 저장하고, 파이썬 데이터 유형을 유지한 형태로 파일을 전달할 수 있다. 또한 바이너리 형식이기에 효율적..
-
[Finance, Naver D2] 금융과 딥러닝 - 금융 영역에서의 딥러닝은 어떻게 다른가?(문효준 (크래프트테크놀로지스))ML&DL 이야기/기타 2024. 3. 31. 11:22
https://www.youtube.com/watch?v=dB8cpsnZ5FA&t=646s 금융관련 프로젝트를 하며 NAVER D2에서 금융데이터의 특성에 관해 잘 정리해둔 영상이 있어서 이를 정리하게 되었다. 사용된 자료들은 모두 영상에서 발췌하였다. 금융 + 딥러닝 = ? 금융데이터에는 다른 데이터와 다른 다양한 특성들이 있어서 딥러닝 접목이 힘들다고 말씀해주신다. 그 특성과 이에 맞는 크래프트 테크놀로지에서 해결한 방법을 소개해주신다 문제점1 : 시계열 feature의 Noise 일반적으로 주가모델링은 흔히 말하는 기하브라운모형을 가정한다. 이는 AR(1)과 매우 유사하기에 편의를 위해 AR(1)을 통해 주가의 정보를 표현하면 아래와 같다(차분을 통해 정보와 노이즈를 표시해보자) 문제는 입실론, 즉..
-
[Colab] 패키지 영구 설치하기 & 문제점개발 이야기/TIL 2024. 3. 27. 00:53
최근 colab pro를 사용하고 있는데, 매번 pip를 하다 보니 당연하게도 컴퓨팅 용량을 너무 많이 잡아먹어서..! 찾아보고 작성하게 되었다. 본 내용은 아래 링크를 기반으로 작성하였다. https://dacon.io/codeshare/4200 [Tip] Colab에 영구적으로 패키지 설치하기! dacon.io Google colab에서 작업하면 정말 좋은 환경을 이용가능하고, pre-built된 library가 일부 있지만, 때로는 몇몇 라이브러리 및 패키지는 !pip install를 이용하여 업그레이드 혹은 설치해줄 필요가 있다. 이를 위해 링크를 연결하여 원본파일을 직접 사용하는 것과 같은 효과를 내는 심볼릭 링크를 이용하여 해당 위치에 패키지를 설치하고 이용해보려고 한다. 심볼릭 링크 연결하기..
-
[Time-series] Are Transformers Effective for Time Series Forecasting? (AAAI 2023, Ailing Zeng et al.)Paper Review(논문이야기) 2024. 3. 26. 15:36
https://arxiv.org/abs/2205.13504 Are Transformers Effective for Time Series Forecasting? Recently, there has been a surge of Transformer-based solutions for the long-term time series forecasting (LTSF) task. Despite the growing performance over the past few years, we question the validity of this line of research in this work. Specifically, Tr arxiv.org 논문코드: https://github.com/cure-lab/LTSF-Lin..
-
[Time-series] Time-series Analysis, 시계열 알아보기ML&DL 이야기/ML 2024. 3. 22. 17:29
시계열..? 통계부터 시작하자 시계열 머신러닝, 딥러닝 방법론들이 최근 많이 화재가 되고 있지만 실무적 관점에서는 여전히 통계적 기반의 시계열 분석은 주요한 위치를 차지하고 있으며, 사실 딥러닝, 머신러닝 기법들 또한 해당 방법론을 기반으로 발전된 것들이 많다. 또한 통계학적 방법론의 가장 큰 장점은 바로 설명력을 기반으로 신뢰성을 가진다는 것이다. Alieen Nielsen의 저서 Practical Time Series Analysis을 인용하면 산업용 시계열 분석은 위험이 낮은 분야에 적용하려고 노력합니다. 광고나 미디어 상품의 출시에 따른 이익을 예측하는 문제에서는 예측의 완전한 검증이 크게 중요하지 않습니다…….(중략)… 통계가 위험이 높은 예측에서 보다 근본적인 역할을 할 수 있기를 바랍니다. ..
-
[NLP&Finance] Analyzing Stock Market Movements Using Twitter Sentiment AnalysisPaper Review(논문이야기) 2024. 3. 16. 12:39
https://dl.acm.org/doi/pdf/10.5555/2456719.2456923 오랜만에 arvix에 없는 논문 리뷰다. 큰 흐름만 보고 상세한 내용들은 향후에 필요하면 추가할 예정이다. 순서 부분에서는 편의를 위해 변경이 있었다. BackGround Regression model & R-square Score linear regression is a statistical model which estimates the linear relationship between a scalar response and one or more explanatory variables(출처 wiki) 회귀분석의 경우 특정 변수와 설명하고자 하는 변수(종속 변수나 y)의 관계를 알아내기 위한 식으로 보통 잔차를 최..
-
[NLP+Finance] nlp&금융 관련 논문 리스트업 개요전공&대외활동 이야기/프로메테우스5기_NLP+ 금융프로젝트 2024. 3. 12. 12:04
이번학기부터 새로운 활동으로 인공지능 동아리인 프로메테우스에서 5기로 활동하게 되었다..! 들어가게 된 이유를 간단히 밝히면 졸업반을 앞두고 다양한 분야에서 연구나 프로젝트를 한번 경험하고 가보고 싶다는 생각이 강했고, 프로젝트를 할 수 있는 동아리를 찾던 중에(물론 현재 랩실에서 다른 플젝도 진행중이지만..ㅎㅎ) 알게되어서 지원하게 되었다. 또 추가로 여름에 있을 교육봉사도 지원을 생각하게된 계기였다. 사족은 여기까지만 남기고, 1학기에 맡은 프로젝트는 NLP와 금융을 합해서 하는 분야인데, 그에 앞서 기본적인 background 및 연구 동향들을 살펴보고자 몇편의 논문을 간단히 읽어보려고 한다. 특히 데이터 출처와 적용한 분야, 결과를 위주로 살펴보려 계획중이다. https://github.com/m..
-
[AI 논문 다반사] AI 주요 학회지 및 논문 찾아보기Paper Review(논문이야기) 2024. 3. 11. 13:57
최근 ICPBL 캡스톤 수업을 들으며 딥러닝 분야의 2~3개년치 논문들을 읽고 리뷰할 일이 필요해서 주요 학회지에서 논문을찾아보는 법에 관해 간단히 정리하게 되었다. 주요학회 구분 딥러닝의 주요학회지는 다음과 같고, 대략 아래의 구분을 따라간다. (ML/DL 전반) NeurIPS, ICML, ICLR, AAAI, IJCAI (NLP) ACL, EMNLP (Computer Vision) CVPR, ICCV, ECCV (Recommender System) RecSys,SIGIR 각 학회에서 발표된 논문들은 해당 학회 이름으로 검색하면 사이트를 통해 확인 가능하다. 아래는 Nerips의 사이트이다. https://blog.neurips.cc/2023/12/11/announcing-the-neurips-2023..