분류 전체보기
-
[Data] 파이썬을 이용한 주가 데이터 수집하기개발 이야기/TIL 2024. 7. 23. 18:51
들어가기에 앞서주가 데이터를 수집할 때, 중요한 것은 여러 금융 이벤트들에 의해 주가가 변화 가능하다는 것이다. 실제 시장에서는 중간에 상장 폐지되거나, 합병이 되거나, 주식 분할이 일어나는 등 다양한 이벤트가 있어서 잘 정제된 데이터를 모으는 것은 백테스팅의 성과를 측정하는데 매우 중요한 지표이다. 이번 여름에 Index tracking을 주제로 연구를 진행하고 있는데 이를 위한 자료를 모으는데 정말 엄청난 우여곡절이 많았다(도서관가서 유료데이터 신청하고 뽑아오고 기타 등등, 상장과 지수편입에는 차이가 있음). 이번에는 그런 금융이벤트들을 최대한 반영하는 방법을 위주로 작성하였지만 다소 부족하거나 틀린 내용이 있을 수 있으니 언제든지 알려주시면 매우 감사..!하겠으며 동시에 차후에 알게된 내용이 있으..
-
[DFL] Decision-Focused Learning: Through the Lens of Learning to Rank( ICML 2022, Mandi et al.)Paper Review(논문이야기) 2024. 7. 17. 16:30
Decision Focused learning 문제를 해결하기 위해 다양한 접근법이 도출되는 것 같다. 대다수 accpet된 논문들의 경우 loss function이나 방법론을 정말 획기적..? 혹은 다른 필드에서 쓰이는 방법들을 잘 변형해서 적용하는데, 이정돈 해야 탑티어 논문인가...? 싶기도 하다. 이번 논문은 LTR에서 사용되던 방법을 이용해서 DFL문제를 풀겠다는 요지의 논문이다. 간단히 요약하면 1. Feasible solution들의 집합 v를 S라는 부분집합을 통해 대체한다(S는 기존의 F.S와 확률적으로 추가된다) - 선행논문 중 하나인 Mumba et.al 방법론 2. objective function을 통해 S를 정렬하고, 이를 실제값을 이용한 정렬된 S와 비교해 ranking los..
-
[LTR] Learning to Rank, Pointwise, Pairwise, Listwise rankingML&DL 이야기/ML 2024. 7. 17. 10:43
Decision Focused learning: Through the lens of learning to Rank 리뷰를 준비하던 중 LTR에 관한 내용을 잘 몰라서 ..ㅎㅎ 따로 정리한 내용이다. 읽다보니 추천시스템에서 사용되는 기술답게 많은 공통점이 있는걸 발견해서 관련 개념을 기반으로 이해하니 조금 이해가 수월했다. 추가적으로 현재 읽고 있는 논문이 LTR의 basic한 방법론들을 DFL에 적용한 논문인데 기존 추천시스템 분야에서 사용되던 기술들을 잘 적용한다면 어떨까..? 하는 생각중이다. 사설은 여기까지 하고 이제 글을 정리해보자. https://otzslayer.github.io/ml/2022/02/13/learning-to-rank.html#approaches-to-ltr 을 기반으로 작성..
-
[Journal of Protfolio management]The Gerber Statistic: A RobustCo-Movement Measure for PortfolioOptimization(Sander Gerber et al.)Paper Review(논문이야기) 2024. 7. 10. 18:04
Harry M. Markowitz, 즉, 그 마코위츠 포트폴리오의 그분이 저자로 함께 작성한 자료이다(엄밀히 말하 논문..?은 아닌거 같다)글의 요지는 기존의 공분산 행렬 추정을 더 robust한 방법으로 변경해야한다..!이며 즉, 실제 시장에는 noise가 많이 껴져있는 상태이기에 기존 방법으로 공분산 추정이 너무 오염된 상태라는 것 같다.이를 위해 Gerber statisitc을 도입하는데(본 논문의 주저자의 이름) 자세한 건 아래에 설명한다. Introduction & Problem포트폴리오 구성(Markowitz 1952, 1059)은 자산 수익률 간의 공분산 행렬에 크게 의존하며, 종종 smaple covariance 자체가 실제 공분산 행렬의 추정치로 이용된다(Jobson and Korkie..
-
[Quantative Finance 2020]Index tracking through deep latent representation learning(Kim&Kim)Paper Review(논문이야기) 2024. 7. 5. 14:56
https://doi.org/10.1080/14697688.2019.1683599 본 논문에서는 Index tracking을 위해 Stack AutoEncoder를 이용하여 벤치마크지수의 추즉오류를 최소화한다. S&P 500, FTSE 100 및 HSI index에 방법론을 적용한다. 인덱스 펀드를 만들거나 할 때 보통 인덱스를 구성하는 모든 종목을 가지고 구성하게 되면, rebalancing 시 큰 Transaction cost나 complexity 우려가 있다. 그렇기에 종목을 구성하는 일부 종목을 가지고 가중치를 조절하여 해당 index를 잘 tracking 하는 portfolio를 만드는 것이 Index Tracking이 목표이다.기존에는 주로 optimization approach를 중심으로 연..
-
[DSL]TaskMet: Task-Driven Metric Learning for Model Learning(NeuIPS 2023) -1Paper Review(논문이야기) 2024. 7. 4. 11:27
https://arxiv.org/abs/2312.05250 TaskMet: Task-Driven Metric Learning for Model LearningDeep learning models are often deployed in downstream tasks that the training procedure may not be aware of. For example, models solely trained to achieve accurate predictions may struggle to perform well on downstream tasks because seemingly small predictarxiv.org 이전 DSL 개론(?) 리뷰에서 정리한바와 같이 Predict-optimize ..
-
Mahalanobis Distance(마할노비스 거리)ML&DL 이야기/ML 2024. 7. 3. 15:25
Mahalonobis Distance는 맥락을 고려한, 분포를 고려한 거리를 의미한다. 우선 참고한 내용들에 따라 본 글에서도 행벡터를 기본적인 기본방향으로 하겠다. 이는 아래와 같이 데이터가 구성되기 때문이다. 보통 선형대수 등 수학에서는 column vector, 열벡터를 기본 방향으로 하고, 이에 따라 행과 벡터의 곱 등 많은 부분이 정의되기에 곱의 순서 등에 있어서 행벡터를 기본방향으로 한다는 것은 많은 부분이 변형된다는 것을 의미한다. 즉, Matrix D가 표본의 수가 n이고 Feature가 d라고 한다면, D를 n * d 차원의 행렬로 표현한다. 맥락은 표준편차다아래의 그림을 보자. 보면 주황색과 노란색 점끼리의 거리는 L2 norm 혹은 유클리디안 거리 관점에서는 원점으로부터 동일한 거리..
-
Norm에 관한 정리 L1, L2, Frobenius normML&DL 이야기/ML 2024. 7. 3. 13:46
기계학습 및 딥러닝에 관한 일부 자료들을 보다보면, loss에서 Mahalnobis distance를 이용하는 경우가 있다. 해당 내용을 정리하면서 동시에 Norm들에 관해 정리하려고 한다(Norm에 관한 내용도 많이 나온다) NormNorm, 노름 이라고 불리는 것은 벡터의 크기(혹은 길이)를 측정하는 함수이다. 다시 말해 두 벡터 간의 거리를 측정할 때에도 사용가능하다. Norm은 거리이기에 거리의 다양한 속성들을 만족해야하며 이는 아래와 같다. 1. Subadditivity/Triangle inequality: 𝑝(𝑥+𝑦)≤𝑝(𝑥)+𝑝(𝑦) for all 𝑥,𝑦∈𝑋.2. Absolute homogeneity: 𝑝(𝑠𝑥)=|𝑠|𝑝(𝑥) for all 𝑥∈𝑋 and al..