ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Finance, Naver D2] 금융과 딥러닝 - 금융 영역에서의 딥러닝은 어떻게 다른가?(문효준 (크래프트테크놀로지스))
    ML&DL 이야기/기타 2024. 3. 31. 11:22

    https://www.youtube.com/watch?v=dB8cpsnZ5FA&t=646s

    금융관련 프로젝트를 하며 NAVER D2에서 금융데이터의 특성에 관해 잘 정리해둔 영상이 있어서 이를 정리하게 되었다. 사용된 자료들은 모두 영상에서 발췌하였다. 

     

    금융 + 딥러닝 = ?

    금융데이터에는 다른 데이터와 다른 다양한 특성들이 있어서 딥러닝 접목이 힘들다고 말씀해주신다. 

    그 특성과 이에 맞는 크래프트 테크놀로지에서 해결한 방법을 소개해주신다

    문제점1 : 시계열  feature의 Noise 

     일반적으로 주가모델링은 흔히 말하는 기하브라운모형을 가정한다. 이는 AR(1)과 매우 유사하기에 편의를 위해 AR(1)을 통해 주가의 정보를 표현하면 아래와 같다(차분을 통해 정보와 노이즈를 표시해보자)

     

    문제는 입실론, 즉, 노이즈가 차지하는 요소가 정보량보다 많다는 점이다. 따라서 대다수의 간단한 주가예측 모형같은 경우에는 실질적으로 직전의 값을 그대로 lagging하는 구조를 나타낸다. 

    문제점 2: 시계열 feature 종류 대비 짧은 시계열 길이

    대다수 high level feature, 모멘텀 등은 긴 frequncey를 기준으로 뽑아야하는데, 이는 기하급수적으로 데이터의 수를 줄인다. 이 때문에 고려해야할 feature 수에 비해서 data수가 적은(curse of dimension)에 맞딱트리게 된다. 

    결론적으로 위의 요소들 때문에 금융 시계열에서 overfitting은 매우 자주 일어나는 문제이다. 

     

    해결법: Time series Denoising 

     

    Smoothing하여 데이터를 나누는 방법은 Time serires 데이터에서 매우 자주 다루는 방법이다(최근 읽은 paper에서도 사용)

     양방향 필터 - Bilateral filter(주로 이미지에서 사용하는 filter이름)
     가우시안 필터를 양쪽 방향으로 두번 한다고해서 이름이 붙여졌습니다.
     평균 값 필터 또는 가우시안 필터는 에지 부근에서도 픽셀 값을 평탄하게 만드는 단점이 있습니다.
    양방향 필터는 기준 픽셀과 이웃 픽셀과의 거리, 그리고 픽셀 값의 차이를 함께 고려하여 블러링 정도를 조절합니다.

     

    다만 MA를 이용한 방법은 값이 살짝  lagging되는 문제가 있으며, Bilateral filter의 경우 몇몇 하이퍼파라미터를 임의로 정해주어여야한다는 문제가 있다(가우시안 필터사용)

     

    어느정도 수준에서 학습을 개선을 해야하는가?를 결정하기 위해 CNN Stacked AutoEncoder기반으로 Denoising Module을 적용했다고 한다(이 부분에 관해서는 더 알아볼 필요가 있음) 

     

    짧은 시계열 길이를 어떻게 해결할까??

     

    데이터 생성의 경우 개별 시계열 데이터를 생성하는 것은 가능하나, 전체 시계열의 상관성을 고려한 생성은 매우 어렵고, 해당 데이터를 믿을 수 있느냐는 다른 문제여서 GAN을 사용한 해결은 어려웠다고 한다. 

     

    경제적 함의점을 고려하는(여러 factor를 잘 어우르는) 모델 자체를 모델링 하는 것은 매우 어려운 task였기에 이를 어떻게하면 더 좋은 feture를 뽑아낼 수 있을지로 문제를 전환하신 것 같다. 

    12-1m(1년 수익률에서 1개월 수익률을 차감) momentum 등 매우 단순한 선형 모형이 많았고, 이를 우리가 원하는 기능을 하도록 해당함수를 새롭게 딥러닝으로 설계하는 방법을 고려하였다고 한다. 

     

    Factor investing에 이를 적용해보자. 

    Factor investing?
    시장 대비 초과수익을 창출할 수 있는 요인에 대한 투자방법으로 CAPM모델이 시장에서 설명하지 못하는 부분들을 다른 factor를 통해 설명하면서 나타난 투자법. Famma french 모델이 대표적이다. 
    대표적인 요인으로 Value, Growth, Momentum 등이 있다. 

     

    문제는 factor가 일정하지 않기에 이를 동적으로 배분할 수 있는 방법에 관해 찾아보셨다고 한다. 

     

    아래는 참고한 Factor들이다. 

     

    기존 직관이 반영된 모델을 최적화하는 방향으로 갔을 때 모델이 잘 작동함을 확인 가능했다. 

     

     

    데이터가 부족할 때 overfitting을 해결하는 법은 아래와 같다(여러 파라미터를 가지는 모델들이 나올 수 있기에 val을 이요해 n개를 검증하는 방법)

     

    -> Thread가 개별적으로 초기화된 각 네트워크를 가지고 여러 네트워크를 동시에 학습을 진행시킴 

     

     

    관찰하지 못한 데이터 구간에 관해서는 Uncertainty Quantification을 이용하는 것이 주요하다(모른다고 보수적으로 말하는 것이 낫다)

    마지막 방법을 주로 사용했는데, FC전 바로 직전 노드들에 관해서 GPR을 이용하여 학습을 하게 되면 기존의 1,2 방법들보다 더 좋은 결과를 보여주었다고 한다(관련 내용은 추가로 작성해보아야할듯)

     

    관련 논문인듯..?

    https://papers.nips.cc/paper_files/paper/2018/hash/a981f2b708044d6fb4a71a1463242520-Abstract.html

     

    Evidential Deep Learning to Quantify Classification Uncertainty

    Requests for name changes in the electronic proceedings will be accepted with no questions asked. However name changes may cause bibliographic tracking issues. Authors are asked to consider this carefully and discuss it with their co-authors prior to reque

    papers.nips.cc

     

    추가) 어떤 모델을 만드느냐에 따라서 거시데이터와 미시데이터의 활용여부가 갈리는듯 

    예를 들어 HFT계열 모델이나 주문집행모델등은 미시데이터를 적용하는 것이 유리하고

    포트폴리오 관련 모델들은 거시데이터가 잘 사용된다고 한다. 

     

    추가) 뉴스 등 데이터는 후행 지표였던 경우가 많다고한다, NLP의 경우 어떤 Sector에 투자할지를 결정할 때도 사용한다고 한다(AI관련 주식을 사고 싶다고 할 때, 어떤 종목을 어떤 산업군을 사야하는가?/ 노드를 구성하는 등으로 테마 ETF를 구성)

Designed by Tistory.