시계열 예측을 위한 순차 원시 인컨텍스트 학습 모델 BaguanTS
BaguanTS는 원시 다변량 시계열을 그대로 입력으로 받아 3차원 트랜스포머로 인컨텍스트 학습을 수행하는 프레임워크이다. 로컬 타깃‑공간 검색 기반 보정(Y‑space RBfcst)과 컨텍스트 오버피팅 전략을 도입해 대용량 모델의 캘리브레이션 불안정성과 출력 과도 평활화를 해결한다. 공개 벤치마크와 에너지 실데이터에서 기존 최첨단 모델들을 앞서며, 확률적 예측 지표(SQL)와 점예측 지표(MASE) 모두에서 유의미한 개선을 보인다.
저자: Linxiao Yang, Xue Jiang, Gezheng Xu
본 논문은 시계열 예측에서 급변하는 데이터 환경에 빠르게 적응하면서도 높은 예측 정확도를 유지할 수 있는 모델링 패러다임을 제안한다. 기존의 두 갈래 접근법—(1) 원시 시계열을 직접 학습하지만 추론 시 그라디언트 업데이트가 필요한 엔드‑투‑엔드 시퀀스 모델, (2) 표형식 특징을 이용해 인컨텍스트 학습을 수행하지만 원시 시계열 구조를 활용하지 못하는 TabPFN‑style 모델—은 각각 장단점이 뚜렷했다. 전자는 표현 학습에 강하지만 적응성이 부족하고, 후자는 적응성은 좋지만 손수 설계한 특징에 의존한다는 한계가 있었다.
BaguanTS는 이러한 격차를 메우기 위해 ‘시퀀스‑네이티브 인컨텍스트 학습’이라는 통합 프레임워크를 설계한다. 핵심 아이디어는 원시 다변량 시계열을 그대로 입력으로 받아, 지원 집합(context set)과 질의(target)를 하나의 3차원 텐서에 결합한 뒤, 3D 트랜스포머 블록을 통해 시간, 변수, 컨텍스트 축을 동시에 어텐션한다는 것이다. 입력 시계열은 먼저 일정 길이(P)로 패치화하고, 랜덤 푸리에 특징을 적용해 고차원 임베딩(D)으로 변환한다. 이렇게 얻은 토큰은 (C+1)×S×(M+1)×D 형태의 텐서가 되며, 여기서 C는 지원 샘플 수, S는 패치 수, M은 변수(공변량) 수를 의미한다.
3D 트랜스포머 블록은 세 단계의 어텐션으로 구성된다. 첫 번째는 Temporal Attention으로, RoPE를 이용해 상대적 시점 정보를 인코딩함으로써 주기성, 트렌드, 변동성을 효과적으로 포착한다. 두 번째는 Variable Attention으로, 변수별 학습 가능한 임베딩을 추가해 다변량 간 상호작용을 모델링한다. 세 번째는 Context Attention으로, 에피소드 내 서로 다른 샘플 간 전역 정보를 교환한다. 각 어텐션 뒤에는 레이어 정규화와 잔차 연결, 그리고 피드포워드 네트워크가 적용돼 모델의 깊이와 표현력을 강화한다.
대용량 3D 모델을 실제 서비스에 적용하려면 두 가지 실용적 문제를 해결해야 한다. 첫 번째는 학습 과정에서 발생하는 캘리브레이션 불안정성과 예측 편향이다. 이를 위해 저자들은 ‘Y‑space Retrieval‑Based Forecast (Y‑space RBfcst)’라는 로컬 보정 모듈을 도입한다. 에피소드 내에서 지원 샘플들의 실제 타깃 값을 최근접 검색해, 현재 예측값에 대한 편향·분산을 데이터‑드리븐하게 조정한다. 이 과정은 특징에 의존하지 않으며, 모델이 다양한 스케일과 분포 변화에 강건하도록 만든다.
두 번째 문제는 인컨텍스트 학습 시 지원 샘플이 노이즈를 포함하거나 서로 상이한 패턴을 가질 때 발생하는 ‘과도 평활화(oversmoothing)’ 현상이다. 모델이 모든 지원 샘플을 평균화하려다 보니 중요한 급변 패턴이 소멸한다. 저자들은 ‘컨텍스트 오버피팅’ 전략을 제안한다. 지원 샘플에 신뢰도 가중치를 부여하고, 가장 유사한 몇 개 샘플에 대해 의도적으로 과적합함으로써, 노이즈가 많은 샘플의 영향력을 억제하고 핵심 패턴을 강조한다. 이 전략은 학습 손실을 감소시키고, 특히 주기적 급등(spike) 재구성에서 큰 효과를 보인다.
학습 단계에서는 ‘Retrieval‑Based Forecasting (RBfcst)’를 활용해 효율적인 컨텍스트 구성을 수행한다. 전체 시계열에서 슬라이딩 윈도우 인덱스를 구축하고, 질의(lookback)와 가장 유사한 K개의 서브시퀀스를 검색한다. 검색된 서브시퀀스와 그 뒤의 H 단계 예측값을 하나의 컨텍스트로 결합해 에피소드를 구성한다. 이때 2K개의 후보 중 무작위로 K개를 선택해 다양성을 확보하고, 일부는 타깃, 나머지는 지원으로 사용한다. 이러한 방식은 메모리 효율성을 유지하면서도 실제 서비스에서 발생할 수 있는 검색 노이즈에 대한 강인성을 제공한다.
실험은 두 가지 축에서 수행되었다. 첫 번째는 공변량을 포함한 공개 벤치마크(feV‑bench‑cov) 30개 태스크이며, 두 번째는 실제 에너지 시계열(전력, 가스, 온도 등) 데이터셋이다. 평가 지표는 점예측 정확도(MASE)와 확률적 예측 정확도(SQL)이며, 승률(win rate)도 함께 보고한다. BaguanTS는 평균 SQL에서 기존 최고 모델(TabPFN‑TS) 대비 4.8% 개선을 달성했으며, MASE에서도 유사하거나 더 나은 성능을 보였다. 승률은 30개 태스크 중 27개에서 우위를 차지했다. 또한 2D 추론 모드(컨텍스트 길이 1)를 활용한 앙상블에서도 추가적인 성능 향상이 확인되었다.
결론적으로, BaguanTS는 (1) 원시 시계열을 그대로 활용하는 순차‑원시 인컨텍스트 학습, (2) 3차원 트랜스포머를 통한 다축 어텐션, (3) Y‑space RBfcst와 컨텍스트 오버피팅이라는 두 실용적 보정·완화 메커니즘을 결합해 대용량 모델의 학습·추론 안정성을 확보한다. 이는 시계열 예측 분야에서 그라디언트‑프리 적응과 높은 예측 정확도를 동시에 달성할 수 있는 새로운 패러다임을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기