점프형 세계 모델을 활용한 구성적 계획

본 논문은 사전 학습된 정책들을 시간 확장 행동으로 조합해 복합적인 목표를 해결하는 ‘구성적 계획’ 방법을 제안한다. 이를 위해 다단계 상태 점유 분포를 예측하는 점프형 세계 모델(‘jumpy world model’)을 학습하고, 여러 시간 스케일에 걸친 일관성을 강제하는 새로운 TD‑Flow 일관성 목표를 도입한다. 이렇게 얻은 모델을 이용해 임의의 정책 시퀀스와 전이 확률을 결합해 가치 추정이 가능하며, 실험 결과 조작 및 내비게이션 장기 …

저자: Jesse Farebrother, Matteo Pirotta, Andrea Tirinzoni

점프형 세계 모델을 활용한 구성적 계획
본 논문은 “Compositional Planning with Jumpy World Models”라는 제목으로, 사전 학습된 정책들을 시간 확장 행동(temporal‑extended actions)으로 조합해 복합적인 목표를 해결하는 새로운 계획 프레임워크를 제시한다. 기존 강화학습에서 옵션이나 계층적 RL은 특정 작업에 맞춰 고수준 정책을 학습하거나, 옵션 간 전이를 설계해야 하는 한계가 있었다. 반면, 이 연구는 사전 학습된 다양한 정책들을 그대로 재사용하면서, 플래닝 단계에서 임의의 정책 시퀀스를 구성할 수 있는 방법을 제안한다. 핵심 아이디어는 ‘점프형 세계 모델(jumpy world model)’이다. 이는 정책 π와 감쇠계수 γ에 대해 후속 측도 mπ,γ 를 직접 생성하는 확률 흐름 모델이며, Geometric Horizon Model(GHM)이라고도 불린다. GHM은 ODE 기반 흐름 매칭(Flow‑Matching) 기법을 이용해, 초기 노이즈 X₀ → ψₜ(X₀|s,a) 로 상태 분포를 변환한다. 훈련 시에는 TD‑Flow 손실을 사용해 1‑step 전이와 부트스트랩된 후속 측도 사이의 차이를 최소화한다. 그러나 장기 예측에서는 부트스트랩 편향이 누적돼 정확도가 급격히 떨어진다. 이를 해결하기 위해 저자는 ‘시간‑일관성(consistency) 목표’를 도입한다. 이 목표는 서로 다른 감쇠계수 β≤γ 사이에 존재하는 Bellman‑like 관계 mπ,γ = (1‑γ)P + γ E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기