-
[Time-series] Long term time-series forecasting 연구동향ML&DL 이야기/ML 2024. 4. 6. 14:23
본 내용은 장기 시계열 예측 연구 동향 영상(https://www.youtube.com/watch?v=GeWsvyEe0h8)을 참고하여 작성하였습니다.
What is LTSF?
Longeterm time series forcasting은 time series forcasting 과제 중에서도 장기적인 동향을 예측하는 task로 보통 장기라 하면 96 step에서 부터 많게는 720 step까지를 말한다.
DataSet for Time series
시계열에서 사용되는 dataset은 대부분 공개된 dataset으로 dataset마다 특성이 존재한다.
즉, 어떤 시계열 데이터는 계졀성이 뚜렷하고, 어떤 것은 매우 불규칙한 등 다양한 특성의 시계열 data에 모델이 잘 적합한지를 보고자 함이다. 벤치마크로 사용되는 dataset은 해당 링크의 드라이브에서 다운 가능하다(출처 Autofomer)
사용되는 dataset은 아래와 같다.
ETTH1, ETTH2: 전력 수요 데이터
2년 동안(2016/07~2018/07)의 중국의 두 주요도시의 전력 수요에 관한 데이터로, ETTh1과 h2는 1시간 간격으로 m1과 m2는 15분 간격의 data이다.
dataset의 filed는 아래와 같으며 target은 OT, oil temperature이다.
특정 지역의 수요는 정확하게 예측이 불가능하며, 전력 수요의 특성상 관리자들은 보다 보수적으로 관리를 할 수 밖에 없다. 또한 수요예측 모델은 다양한 fature들이 영향을 끼치기에 더 많고 큰 dataset이 필요함으로 모델의 성능을 표현하는 dataset으로 보다 부적합하다고 판단했다고 한다.
반면,오일 온도는 변압기의 부하 상태를 반영하기에 전력 수요와 밀접한 관련이 있다고 판단하여 해당 값을 target value로 잡았다고 한다.
다른 field는 아래와 같다.
필드 설명 Voltage 변압기의 입력 전압Current 변압기의 입력 전류Active Power 변압기의 활성 전력Reactive Power 변압기의 무효 전력Apparent Power 변압기의 겉보기 전력Power Factor 변압기의 역률 Ambient Temperature 변압기 주변 온도Oil Temperature 변압기 내부 석유 온도자세한 사항은 링크 확인
기타 dataset은 아래와 같다.
Exchange:
1990~2016도 까지 호주, 영국, 캐나다, 스위스, 중국, 일본, 뉴질랜드, 싱가포르 등 외국 8개국의 일일 환율을 수집한 데이터셋
Weather: 날씨 데이터셋은 막스 플랑크 생물 지구화학 연구소에서 기록한 dataset으로 온도, 대기압 및 습도와 같은 14가지 특성이 있으며, 2003년부터 시작해 10분 간격으로 수집.
ILI: 인플루엔자 확산 데이터
Traffic: 교통량 데이터
원시 데이터는 http://pems.dot.ca.gov 에 있고, 캘리포니아 교통부에서 수집한 48개월(2015~2016) 시간별 데이터로 도로점유율(0~1사이)를 설명하는 dataset.
Electricity: 전력 수요 데이터
원시 데이터세트는 https://archive.ics.uci.edu/ml/datasets/ElectricityLoadDiagrams20112014 에 있고, 2011년부터 2014년까지 15분마다 기록된 kWh 단위의 전기 소비량이다. 최종적(dataset preproecss)으로 2012년부터 2014년까지 321명의 클라이언트 전력 소비량을 포함한다.
Reasearch trends
1. Reducing Computation Cost
시계열 모델 중 transfomer를 이용하는 TST모델들은 시계열 데이터를 여러 개의 패턴으로 분할하고 각 패턴을 Transformer block(scaled dot-product attention units)으로 처리한다. 그렇기에 L2의 시간복잡도를 가지는데 과거 데이터를 많이 참조해야하는 시계열 데이터의 특성상 해당하는 계산 복잡도를 줄이기 위해 많은 연구가 이루어지고 있다.
2. Embedding & Preporcessing
추가적으로 Preporcessing단계에서 보통 시계열 데이터를 어떻게 분해할 것인지에 관해 다룬다. 데이터 정규화, MA를 이용한 이동평균 분해, 차분, Fourier Transform(주파수분해영역) 등이 존재한다. 이는 각 모델에서의 특징마다 결정된다.
또한 Embedding, 즉 postional embedding 방법 또한 다르다.
Some notable Model for LTSF task
몇몇 주목할만한 흐름들의 모델들은 아래와 같으며, 자세한 설명은 향후 블로그에 작성하는대로 링크를 첨부할 예정이다.
Infomer: AAAI 2021 Best paper
ProbSparse Self-attention: 계산 효율성을 높이기 위한 희소화된 self-attention 메커니즘 사용
Autoformer: NerIPS 2021
AutoCorrelation을 이용해 계산 복잡도를 낮춘 모델
FEDformer: ICML 2022
주파수 기반의 트렌스포머 모델, 주파수 기반의 분해기법에 집중한 모델
Are transfomer are really effective?: AAAI 2023
트랜스포머 기반 모델의 효과성에 대한 재평가: 트랜스포머 모델의 과대 평가 가능성 제시
A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers: ICLR 2023
vit기반의 PatchFomer를 제시
'ML&DL 이야기 > ML' 카테고리의 다른 글
Norm에 관한 정리 L1, L2, Frobenius norm (1) 2024.07.03 Decision-Focused Learning: Foundations, State of the Art,Benchmark and Future Opportunities 리뷰 1 (DFL 개론) (0) 2024.07.02 [Time-series] Time-series Analysis, 시계열 알아보기 (2) 2024.03.22 [Graph] Graph Neural Networks 개론(개념정리) (4) 2024.03.04 [NLP processing] 자연어 데이터를 전처리해보자! (0) 2024.02.23