멀티해상도 트랜스포머 기반 시계열 예측 IPatch

IPatch는 시계열 데이터를 점별 토큰과 패치 토큰을 동시에 활용하는 이중 해상도 트랜스포머 구조이다. 패치‑기반 전역 어텐션으로 장기 의존성을 효율적으로 포착하고, 점별 자동상관 모듈로 미세한 변동을 보존한다. 7개 벤치마크에서 기존 단일표현 모델보다 정확도·노이즈 강인성·일반화 능력이 향상되었다.

저자: Aymane Harkati, Moncef Garouani, Olivier Teste

멀티해상도 트랜스포머 기반 시계열 예측 IPatch
본 논문은 멀티베리어트 시계열 예측에서 점별 인코딩과 패치 인코딩이 각각 갖는 장단점을 통합한 새로운 Transformer 구조인 **IPatch**를 제안한다. 서론에서는 시계열 데이터가 짧은 변동과 장기 의존성을 동시에 포함하고 있기에, 기존 Transformer 기반 모델이 점별 토큰을 사용하면 계산량이 급증하고 장기 패턴 학습이 어려우며, 패치 토큰을 사용하면 효율성은 확보하지만 미세한 변동이 손실된다는 문제점을 제시한다. 이를 해결하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, 입력 시계열을 일정 길이 S의 패치로 나눈 뒤 위치 인코딩을 부여해 **Patch‑Based Attention**을 수행한다. 이 전역 어텐션은 N개의 패치 간 상호작용을 학습해 장기 트렌드와 계절성을 효과적으로 포착한다. 둘째, 각 패치 내부에서는 **Point‑wise Auto‑Correlation** 모듈을 적용해 주파수 도메인에서 패치 내 주기성을 탐지한다. 자동상관은 시계열의 자기상관 구조를 직접 모델링함으로써 패치 압축 과정에서 사라질 수 있는 고주파 정보를 보존한다. 아키텍처는 Figure 1에 요약되어 있다. 입력 X(L × M)는 N개의 패치 Pₖ,ⱼ (k = 1…N, j = 1…M) 로 분할되고, 선형 투사 W_proj와 위치 인코딩 W_pos를 통해 D 차원의 임베딩 P′ₖ,ⱼ 로 변환된다. 이후 두 병렬 스트림으로 전달된다. (1) **Transformer Encoder**는 다중 헤드 스케일드 닷‑프로덕트 어텐션을 사용해 Z₁(P′) = EncoderAttention(P′) 를 계산한다. (2) **Auto‑Correlation Block**은 각 패치에 대해 Q, K, V 를 생성하고, 주파수 변환(FFT) 기반의 상관 연산을 통해 Z₂(P′) = EncoderAutoCorrelation(P′) 를 산출한다. 두 출력 Z₁, Z₂는 차원 결합 후 flatten 되어 최종 선형 레이어를 거쳐 H‑step 미래 시계열 ˆX를 예측한다. 논문은 7개의 공개 벤치마크(ILI, Electricity, Weather, ETTh1, ETTh2, ETTm1, ETTm2)와 5가지 예측 horizon(24, 36, 48, 60, 96 ~ 720)에서 실험을 수행한다. 비교 대상은 최신 Transformer 기반 시계열 모델(Informer, Autoformer, FEDformer, DLinear, PatchTST 등)이며, 평가 지표는 MSE와 MAE이다. 결과는 IPatch가 모든 데이터셋·horizon에서 평균 MSE를 2.3%~5.1% 개선하고, MAE 역시 1.8%~4.7% 감소시켰음을 보여준다. 특히 노이즈가 추가된 실험에서 기존 모델은 성능 저하가 8% 이상 발생했지만, IPatch는 2% 이하로 억제하였다. 또한, 패치 겹침(overlap) 전략에 대한 부정적 실험 결과를 제시한다. Table 1에 따르면 겹침 비율을 조정해도 MSE/MAE 개선폭이 0.01 이하에 불과하고, 일부 데이터셋(예: ETTh1, ILI)에서는 겹침이 오히려 성능을 저하시킨다. 이는 단순 중복이 아니라 **구조적** 정보 보강이 필요함을 시사한다. 논문의 기여는 다음과 같다. 1. **다중해상도 토큰화**와 **이중 스트림 어텐션**을 통한 전·후방 정보 통합. 2. **Patch‑Based Attention**으로 전역 장기 의존성을 효율적으로 학습하면서 메모리·시간 복잡도를 O((L/S)²) 로 감소. 3. **Point‑wise Auto‑Correlation**을 통해 패치 내부의 미세 변동과 주기성을 보존, 특히 고주파·노이즈 환경에서 강인성 확보. 4. **광범위한 실험**을 통해 기존 단일표현 모델 대비 일관된 성능 향상 입증. 한계점으로는 패치 길이 S와 겹침 비율 O를 사전에 설정해야 하며, 자동상관 연산이 아직 O(S·logS) 복잡도를 갖는다는 점을 들 수 있다. 향후 연구에서는 **동적 패치 생성**(시계열 변동성에 따라 가변 길이 패치)과 **경량 자동상관 근사**(예: 저차원 주파수 표현) 등을 통해 효율성을 더욱 높일 수 있을 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기