정의 (Definition)
"Time Series" + "Transformer" : Transformer 기반 시계열 데이터(Time Series) 예측 모델
HuggingFace에서는 Time Series Transformer를 다음과 같이 정의한다.
The Time Series Transformer model is a vanilla encoder-decoder Transformer for time series forecasting.
Vanilla encoder-decoder, 혹은 Transformer 에 대한 간략한 이해가 필요해보인다.
Vanilla encoder-decoder
encoder-decoder 구조 또한 딥러닝(인공신경망) 모델 중 하나이다.
시퀀스 데이터를 입력으로 받아 이를 예측하는데 사용되는데, 대표적으로 기계 번역 분야에서 사용되는 모델이다.
입력 시퀀스(input sequence)를 의미하는 인코더(encoder)와
출력 시퀀스(output sequence)를 생성하는 디코더(decoder)로 구성되어있다.
이 구조는 입력 시퀀스와 출력 시퀀스의 길이가 다른 경우에 잘 동작하는 능력이 있기 때문에 주로 이용된다.
"Vanilla"가 머신러닝 분야에서 주로 사용되는 의미는 "단순한"의 의미를 갖는다.
즉, 단순한 형태의 encoder-decoder 구조 라는 의미이다.
해당 부분은 간단히만 설명합니다.
Transformer
Transformer는 주로 자연어 처리 분야에서 사용되는 모델이다.
입력 시퀀스와 출력 시퀀스를 동시에 처리할 수 있다.
일반적으로 Attention이 사용되는 것을 Transformer로 알고있는데,
해당 모델의 경우, Multi-Head Self Attention Mechanism과 Feed-Forward Neural Network로 구성되어있다.
일반화한 Attention 정도로 이해하면 될 것 같다.
즉, 거창해보이지만 결국 Transformer를 Time Series data에 적용한 것 밖에 안된다.
참고자료:
Attention is all you need(Transformer) paper
특징 (Features)
시계열 데이터에 Transformer가 적용되기 전까지는 주로 신경망(Neural Network) 기반의 ARIMA, LSTM 등과 같은 기존의 모델을 사용했다.
아무래도 time series transformer의 경우 기존 RNN 계열 모델들보다 더욱 효과적으로 시계열 데이터를 처리할 수 있는 장점이 있다.
사실 transformer의 특징이 전부라고 봐도 무방하니 가볍게 소개하겠다.
- Self-Attention mechanism을 이용해 시계열 데이터를 처리한다. 이를 통해 각 입력 시퀀스의 위치를 고려하여 주기성(Cycle), 추세(Trend) 등 시계열 데이터의 특징이라 보이는 패턴을 학습할 수 있다.
- 병렬 처리 또한 가능하다.
- RNN에 비하여 Vanishing Gradient에 대해 비교적 자유롭다
- Multi-Head Attention을 사용하여 입력 시퀀스를 처리할 수 있다. 다양한 관점에서 입력 데이터를 처리하고 순서를 학습할 수 있는 장점이 있다.
- Positional Encoding을 통해 위치 정보를 유지하기도 한다.
모델 (model)
해당 방법이 적용된 모델을 가볍게 소개하고 마치려한다.
N-BEATS
- 다양한 주기성을 갖는 경우 Multi-Horizon forecast를 수행할 수 있음
- Time Series(시계열 데이터)를 처리하기 위해 end-to-end deep learning approach를 시도
Paper: https://arxiv.org/abs/1905.10437
TCN (Temporal Convolutional network)
- TCN을 Time Series에 적용
- Residual Block + Dilated Convolution 등 다양한 기법을 활용
Paper: https://arxiv.org/pdf/1803.01271.pdf
TFT (Temporal Fusion Transformer)
- Multi-Resolution architecture
- Dynamic Integration mechanism 적용
Paper: https://arxiv.org/abs/1912.09363
Performer
- Self Attention mechanism을 개선한 모델
- 비교적 빠른 속도로 예측을 수행
Paper: https://arxiv.org/abs/2009.14794
'MACHINE LEARNING > Artificial Neural Network' 카테고리의 다른 글
Microsoft LIDA 사용법 (0) | 2023.09.03 |
---|---|
NMT with attention / Neural Machine Translation 설명 (0) | 2023.05.18 |
Neural Radiance Fields (NeRF) Tutorial in 100 lines of PyTorch code 주석 및 해석 (0) | 2023.04.30 |
Autoencoder VS Seq2Seq 차이 비교 (0) | 2023.04.13 |
TSC / Time series classification 시계열 분류 정리 (0) | 2023.03.10 |