세계 정합성을 위한 강화학습과 그라운드 제어

읽는 시간: 6 분
...

📝 원문 정보

  • Title: GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment
  • ArXiv ID: 2512.01952
  • 발행일: 2025-12-01
  • 저자: Haoyang He, Jay Patrikar, Dong-Ki Kim, Max Smith, Daniel McGann, Ali-akbar Agha-mohammadi, Shayegan Omidshafiei, Sebastian Scherer

📝 초록 (Abstract)

강화학습 기반 세계 정합(RLWG)은 사전 학습된 비디오 세계 모델의 기하학적 불일치를 검증 가능한 보상을 이용한 자기지도 사후 학습으로 해결한다. 재구성 손실 대신, RLWG는 고정된 평가자들로부터 얻는 기하학적·지각적 보상을 통해 모델을 정합한다. GrndCtrl은 그룹 상대 정책 최적화(GRPO)를 사용해 RLWG를 구현하며, 물리적으로 일관된 롤아웃을 가능하게 하여 신뢰할 수 있는 세계 생성에 필수적인 기반을 제공한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문이 제시하는 “Reinforcement Learning with World Grounding”(RLWG) 접근법은 기존 비디오 기반 세계 모델이 겪는 기하학적 불일치 문제를 근본적으로 해결하려는 시도이다. 전통적인 비디오 세계 모델은 주로 프레임‑간 재구성 손실을 최소화함으로써 학습되는데, 이러한 손실은 시각적 일관성은 확보하지만 물리적·기하학적 제약을 충분히 반영하지 못한다. 결과적으로 모델이 생성한 가상 환경은 인간이 직관적으로 인식하는 물리 법칙과 어긋나는 경우가 빈번하다.

RLWG는 이러한 한계를 극복하기 위해 두 가지 핵심 전략을 도입한다. 첫째, “검증 가능한 보상”(verifiable rewards)이라는 개념을 도입해, 사후 학습 단계에서 모델이 실제 물리·기하학적 제약을 만족하는지를 직접 평가한다. 여기서 보상은 두 종류로 구분된다. 하나는 기하학적 보상으로, 예를 들어 객체 간 거리 유지, 관절 각도 제한, 카메라 투영 일관성 등을 수치화한 것이다. 다른 하나는 지각적 보상으로, 인간 시각 시스템이 민감하게 반응하는 텍스처·조명·깊이 일관성을 평가한다. 이러한 보상은 사전 학습된 “고정된 평가자”(frozen evaluators)—예컨대, 사전 학습된 3D 포즈 추정기나 물리 엔진 기반 시뮬레이터—에 의해 자동으로 계산된다.

둘째, RLWG는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 활용한다. 기존의 정책 최적화 기법은 개별 에이전트의 보상에만 초점을 맞추는 반면, GRPO는 여러 에이전트(또는 여러 시뮬레이션 샘플) 간의 상대적인 성능을 비교함으로써 보다 안정적인 학습 신호를 제공한다. 이는 특히 보상이 희소하거나 노이즈가 많은 상황에서 정책 업데이트의 변동성을 크게 감소시킨다.

GrndCtrl은 이러한 RLWG 프레임워크를 실제 구현한 시스템이다. GrndCtrl은 비디오 세계 모델을 입력으로 받아, GRPO 기반의 강화학습 루프를 통해 모델 파라미터를 미세 조정한다. 이 과정에서 모델은 “물리적으로 일관된 롤아웃”(physically consistent rollouts)을 생성하게 되며, 이는 곧 현실 세계와의 격차를 최소화한다는 의미다. 실험 결과, GrndCtrl을 적용한 모델은 기존 재구성 손실 기반 모델에 비해 3D 포즈 추정 정확도, 물체 충돌 회피, 그리고 장면 전반의 기하학적 일관성 측면에서 현저히 우수한 성능을 보였다.

이러한 접근법은 몇 가지 중요한 함의를 가진다. 첫째, 비디오 기반 세계 모델이 단순히 시각적 재현을 넘어 물리적 현실성을 갖추게 됨으로써, 로봇 제어, 가상 현실, 그리고 자율 주행 시뮬레이션 등 실시간 물리 기반 응용 분야에 바로 적용 가능해진다. 둘째, 검증 가능한 보상이라는 개념은 향후 다른 도메인—예컨대 자연어 처리에서의 논리적 일관성 평가—에도 확장될 수 있는 일반화 가능한 프레임워크를 제공한다. 셋째, GRPO와 같은 상대적 정책 최적화 기법은 보상이 명시적으로 정의되지 않은 복합 환경에서 강화학습의 안정성을 크게 향상시킬 수 있음을 시사한다.

향후 연구 과제로는 (1) 평가자(frozen evaluator)의 다양화 및 자동화, (2) 보상 설계 시 인간 인지 모델을 보다 정밀하게 반영하는 방법, (3) 대규모 멀티모달 데이터셋에 대한 확장성 검증 등이 있다. 특히, 평가자를 학습 가능한 모듈로 전환하면서도 “고정”이라는 특성을 유지하도록 하는 메타‑학습 기법은 RLWG의 적용 범위를 크게 넓힐 것으로 기대된다.

📄 논문 본문 발췌 (Excerpt)

## 세계 정합성을 위한 강화학습과 그라운드 제어: 전문 한국어 번역

대규모 비디오 세계 모델은 강력한 사전 학습된 우선순위로 인식 및 제어를 위한 모델링에 등장했습니다. 이러한 모델은 미래 관측값을 예측함으로써 과거 프레임과 행동으로부터 전환 역학을 근사하여 시뮬레이션, 계획, 정책 평가가 가능합니다. 픽셀 영역에 정렬되어 실제 센서와 일치하고 비디오에서 풍부한 암시적 감독에 접근할 수 있어 도메인 간 통합이 가능합니다 (예: 조작, 주행, 항법). 그러나 이러한 모델은 종종 운동의 외관보다 구조가 더 많이 포착되는 경향이 있습니다. 그들의 롤아웃은 시각적으로 설득력이 있지만, 기하학적 및 시간적 일관성이 없습니다: 자세는 흐트러지고, 깊이는 흔들리며, 경로는 시간이 지남에 따라 일치하지 않습니다. 심지어 미세한 관절 각도 오류는 누적되어 공간 오류를 유발하여 메트릭 구조가 손상됩니다. 이러한 불안정성은 현재 모델이 폐쇄 루프 작업 (예: 위치 지정, 매핑, 계획)에 사용될 때 제한을 초래합니다. 이러한 작업은 물리적으로 일관된 표현이 필수적입니다.

세계 모델 그라운드링: 우리는 학습된 역학을 물리 및 시간적 불변성과의 일치에 맞추는 것으로 정의합니다. 이를 통해 롤아웃은 기하학뿐만 아니라 시간에도 충실하게 됩니다. 그라운드링은 세계 모델링에서 시각적 신뢰성을 구조적 일관성으로 전환하는 역할을 합니다. 이를 통해 모델의 내부 역학이 실제 운동과 장면 구조의 제약에 따라 존중되도록 보장합니다. 이를 위해, 우리는 강화 학습 (RL)을 사용하여 사전 학습된 세계 모델을 정제하는 자율 감독 프레임워크인 강화 학습과의 그라운드링 (Reinforcement Learning with World Grounding, RLWG) 을 소개합니다. RLWG는 언어 모델에서 논리적 검증에 대한 개념을 확장하여 기하학적 및 시간적 검증을 도입합니다.

RLWG와 GrndCtrl: RLWG는 사전 학습된 세계 모델을 정책으로 취급하고 여러 후보 롤아웃을 생성하는 프레임워크입니다. 각 컨텍스트 (그리고 가능한 경우 행동)에 대해, 모델은 다양한 롤아웃을 생성하고 자동으로 점수를 매기기 위해 검증 가능한 지형 보상을 사용합니다. 이러한 보상은 공간 및 시간 일관성을 측정하는 물리적 정확성과 관련이 있습니다 (예: 관절 순환 일관성, 깊이 재구성 일치, 행동 준수). RLWG는 단순한 픽셀 오류 손실과 달리 물리적 올바름을 측정합니다.

효율적인 보상 최적화를 위해, 우리는 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) [21]를 채택하여 GrndCtrl 알고리즘을 개발했습니다. 각 컨텍스트 (행동과 함께)에 대해, 모델은 여러 롤아웃 그룹을 생성하고, 그룹 내 상대 이점을 계산한 후, 사전 학습된 모델을 고정하고 정책 업데이트를 수행합니다. 이러한 형식은 시각적 품질을 유지하면서 모델의 역학을 물리적 구조와 점진적으로 일치시킵니다. 이 과정에는 인간 주석이 필요하지 않으며 외부 시뮬레이터도 사용되지 않습니다. 개념적으로, GrndCtrl는 GRPO 기반 정렬이 생성 모델에서 구조적 유사 프로세스로 확장된 것을 시각 영역에 적용합니다.

기여:

  1. RLWG 소개: 우리는 RLWG를 사전 학습된 세계 모델을 정제하기 위한 자율 감독 프레임워크로서 소개합니다. 이 프레임워크는 물리적으로 검증 가능한 보상을 사용하여 동결된 평가자 없이 검증 가능한 기하학적 및 시간적 보상을 유도합니다.
  2. GrndCtrl 개발: 우리는 RLWG를 위한 GRPO 기반 방법인 GrndCtrl을 개발했습니다. 이 방법은 다양한 보상 목표에 대한 다목적 GRPO를 통해 여러 객관적 지형 보상을 최적화합니다.
  3. 평가: GrndCtrl은 다양한 데이터셋에서 롤아웃의 자세 오류 평균 및 분산을 감소시킵니다. 또한, 강력한 성능을 보여주며, 특히 Counterfactual 롤아웃과 일반화에서 우수한 결과를 얻습니다.

최근 대규모 비디오 기초 모델의 발전은 비디오 예측을 제어 가능한 세계 시뮬레이션으로 전환시켰습니다. 모델 Cosmos-Predict [17]와 V-JEPA [2]는 다중 모달 조건으로 장기 예측 및 제어를 통합합니다. 이러한 모델은 인상적인 시뮬레이션 충실도를 달성하지만, 공간 드리프, 기하학적 불일치, 시간적 일관성 부족을 드러내며 한계를 보입니다. 건축학적 혁신 (예: 흐름 매칭, 조건부 디프 트랜스포머, 마스크된 잠재 예측)은 이러한 문제를 개선했지만 물리적 일관성을 제공하지는 않습니다.

강화 기반 사후 학습: 강화 학습은 대규모 생성 모델의 정렬에 핵심적인 역할을 해왔습니다. 언어 시스템에서 강화 학습으로부터 인간 피드백 (RLHF) [18]과 강화 학습과의 보증 가능한 보상 (RLVR) [14]은 모방 학습을 대체하고 목표 기반 정렬을 도입합니다. 그룹 상대 정책 최적화 (GRPO) [21]는 이러한 접근 방식을 확장하여 비디오 디프 트랜스포머와 같은 모델에 적용할 수 있습니다.

RLWG는 RLVR을 세계 모델링에 적응시켜 사전 학습된 세계 모델을 물리적으로 검증 가능한 보상으로 정제합니다. GrndCtrl은 RLWG를 구현하는 다목적 GRPO 프레임워크입니다. 이 과정은 기하학적 일관성을 강제하고, 인간 감독 없이 롤아웃의 장기적 안정성을 크게 향상시킵니다.

방법:

우리는 사전 학습된 비디오 세계 모델 Wθ (정책 θ로 매개변수화)을 고려합니다. 이 모델은 관측 프레임과 (선택적으로) 행동 입력을 조건으로 미래 관측을 예측하는 정책입니다. 목표는 사후 학습을 통해 Wθ를 강화 학습을 사용하여 공간 일관성과 신체 신뢰성을 향상시키는 것입니다.

보편적인 피드백을 얻기 위해, 우리는 동결된 3D 평가자 E를 사용합니다. 이 평가자는 상대 자세 추정 (∆R1:T, ∆t1:T)과 각 프레임에 대한 깊이 맵 Dt를 제공합니다. 또한, 비디오 평가자 V를 사용하여 전체 비디오의 시각 및 운동 품질에 대한 피드백을 얻습니다.

목표는 θ를 최적화하여 생성된 롤아웃이 다양한 검증 가능한 보상을 극대화하도록 하는 것입니다. 이러한 보상은 3D 평가자와 비디오 평가자로부터 유도됩니다.

…(본문이 길어 생략되었습니다. 전체 내용은 원문 PDF를 참고하세요.)…

📸 추가 이미지 갤러리

icon.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키