적응형 시장 레짐 인식 기반 주가 예측: 자동인코더‑게이트 듀얼 트랜스포머와 강화학습 제어

본 논문은 정상 시장 상태에 대해 학습된 자동인코더의 재구성 오류를 레짐 변화를 감지하는 신호로 활용하고, 감지된 레짐에 따라 안정형과 이벤트형 두 개의 노드 트랜스포머를 선택적으로 가동한다. 또한 Soft Actor‑Critic(SAC) 강화학습 에이전트를 도입해 재구성 오류 임계값과 두 경로의 블렌딩 가중치를 예측 성능 피드백에 기반해 자동 조정한다. 20개의 S&P 500 종목(1982‑2025) 실험에서 전체 시스템은 MAPE 0.59%…

저자: Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman

적응형 시장 레짐 인식 기반 주가 예측: 자동인코더‑게이트 듀얼 트랜스포머와 강화학습 제어
본 논문은 “레짐‑의존적” 주가 예측 문제를 해결하기 위해 세 가지 주요 모듈을 결합한 통합 프레임워크를 제안한다. 첫 번째 모듈은 정상 시장 구간(1982‑2025년 중 변동성이 낮고 구조적 변동이 적은 구간)만을 사용해 학습한 자동인코더이다. 자동인코더는 입력 피처(OHLCV와 기술 지표)를 저차원 잠재공간으로 압축하고 다시 복원함으로써 재구성 오류 eₜ를 산출한다. 정상 데이터에 대해 학습된 모델은 정상 패턴을 낮은 오류로 복원하지만, 급격한 변동이나 이벤트가 발생하면 오류가 급증한다. 이 오류를 레짐 스코어로 활용해 임계값 τ와 비교한다. 두 번째 모듈은 두 개의 Node‑Former 네트워크로 구성된다. 정상 경로(NodeFormer N)는 일반적인 시계열 패턴을 학습하도록 설계되었으며, 이벤트 경로(NodeFormer E)는 추가적인 컨텍스트 벡터 cₜ를 입력받는다. cₜ는 (1) VIX 기반 변동성 레벨(저·중·고), (2) 감성 스파이크 절대값, (3) 실적 발표 근접도, (4) 교차자산 스트레스 지표 등을 포함한다. 이러한 보조 정보를 통해 이벤트 경로는 “불안정·극단·시스템적” 레짐을 세부적으로 구분하고, 각각에 맞는 어텐션 패턴을 학습한다. 두 경로는 독립적으로 예측값 y_Nₜ₊ₕ, y_Eₜ₊ₕ을 출력하고, 블렌딩 가중치 α에 따라 최종 예측 ŷₜ₊ₕ = α·y_Nₜ₊ₕ + (1‑α)·y_Eₜ₊ₕ 으로 결합된다. 세 번째 모듈은 Soft Actor‑Critic(SAC) 기반 메타‑컨트롤러이다. SAC는 연속 행동 공간 (τ, α) 를 탐색하며, 매 타임스텝에서 얻은 예측 손실(RMSE)과 방향 정확도(D A)를 보상 rₜ = ‑RMSEₜ + λ·D Aₜ (λ는 스케일링 파라미터)로 정의한다. 엔트로피 보너스를 포함해 정책 π(·|sₜ) 가 충분히 탐험하도록 유도한다. 여기서 상태 sₜ 는 현재 재구성 오류 eₜ, 이전 블렌딩 가중치 αₜ₋₁, 그리고 최근 N일간의 성능 메트릭을 포함한다. SAC는 Q‑네트워크와 정책 네트워크를 동시에 업데이트해, 최적의 τ와 α 조합을 지속적으로 학습한다. 결과적으로 레짐 경계가 고정되지 않고, 시장 변동성에 따라 실시간으로 이동한다. 데이터 전처리 단계에서는 OHLCV 데이터를 기반으로 SMA, EMA, RSI, MACD, 20일 롤링 변동성 등 17개의 피처를 생성하고, 확장 윈도우 Z‑스코어 정규화를 적용해 미래 정보를 누설하지 않도록 설계하였다. 라우터 전용 피처는 변동성, VIX 변화, 상관관계 변화, 감성 절대값, 소셜 미디어 위기 키워드 포스트 수 등을 포함해 레짐 감지를 강화한다. 결측값은 1‑2일 짧은 구간에 대해 선형 보간을 적용하고, 장기 결측은 해당 일자를 제외한다. 실험은 20개의 S&P 500 종목을 대상으로 1982‑2025년 일일 데이터를 사용했으며, 학습‑검증‑테스트를 시계열 순서대로 70‑15‑15 비율로 분할하였다. 베이스라인으로는 기존 Integrated Node‑Former(단일 경로, 레짐 구분 없음)와 전통적인 ARIMA, LSTM, GRU 모델을 포함했다. 주요 성과는 다음과 같다. (1) 전체 시스템은 MAPE 0.59%와 방향 정확도 72%를 달성했으며, 이는 베이스라인 Integrated Node‑Former(0.80% / 65%) 대비 각각 26%와 7%p 개선이다. (2) 고변동성 구간(기준 모델 MAPE > 1.5%)에서도 MAPE가 0.85% 이하로 유지돼 레짐 적응성이 위기 상황에서도 유효함을 입증했다. (3) Ablation 실험에서 (a) 자동인코더 라우팅을 제거하면 MAPE가 36% 악화, (b) SAC 컨트롤러를 제외하면 15% 악화, (c) 듀얼‑노드 구조를 단일 노드로 통합하면 7% 악화되는 등, 각 구성 요소가 성능에 기여함을 정량적으로 보여준다. 논문의 한계로는 이진 라우팅 설계가 복수 레짐을 완전히 포착하지 못할 가능성, SAC 학습에 필요한 탐험 단계가 길어 실시간 적용 시 초기 적응 기간이 필요함, VIX 기반 변동성 레벨이 미국 시장에 특화돼 다른 국가·시장에서는 재조정이 필요함을 들 수 있다. 향후 연구에서는 (i) 다중 레짐 라우팅 및 클러스터링 기반 라우터 확장, (ii) 메타‑러닝을 이용한 임계값 초기화 및 빠른 적응, (iii) 비미국 시장·다중 자산군에 대한 일반화 검증을 제안한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기