시간을 꿈꾸는 로봇 조작을 위한 행동조건 세계모델

읽는 시간: 4 분
...

📝 원문 정보

  • Title: ChronoDreamer: Action-Conditioned World Model as an Online Simulator for Robotic Planning
  • ArXiv ID: 2512.18619
  • 발행일: 2025-12-21
  • 저자: Zhenhao Zhou, Dan Negrut

📝 초록 (Abstract)

본 논문에서는 접촉이 풍부한 로봇 조작을 위한 행동조건 세계 모델인 ChronoDreamer를 제안한다. 에고센트릭 RGB 영상, 접촉 지도, 행동 명령 및 관절 상태의 히스토리를 입력으로 받아, ChronoDreamer는 미래의 영상 프레임, 접촉 분포 및 관절 각도를 공간‑시간 트랜스포머를 이용해 예측한다. 모델은 MaskGIT 방식의 마스크 예측으로 학습되며, 접촉은 깊이 가중 가우시안 스플랫 이미지로 인코딩되어 3D 힘을 카메라 정렬 형식으로 시각 백본에 전달한다. 추론 단계에서는 예측된 롤아웃을 비전‑언어 모델에 입력해 충돌 가능성을 판단하고, 실행 전 위험한 행동을 거부 샘플링한다. 우리는 DreamerBench라는 시뮬레이션 데이터셋(Project Chrono 기반)에서 RGB, 접촉 스플랫, 프로프리오셉션 및 물리 주석이 동기화된 다양한 강체·연성 물체 시나리오를 사용해 모델을 학습·평가한다. 정성적 결과는 모델이 비접촉 움직임에서 공간적 일관성을 유지하고, 합리적인 접촉 예측을 생성함을 보여주며, LLM 기반 판단자는 충돌과 비충돌 궤적을 정확히 구분한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
ChronoDreamer는 로봇 매니퓰레이션 분야에서 가장 난해한 문제 중 하나인 ‘접촉 예측’을 시각‑언어‑물리 통합 프레임워크로 풀어낸 점이 혁신적이다. 기존 세계 모델은 주로 이미지와 관절 상태만을 이용해 미래 프레임을 예측했지만, 접촉 정보가 결여돼 실제 물리적 상호작용을 안전하게 계획하기 어려웠다. 본 연구는 접촉을 ‘깊이 가중 가우시안 스플랫’이라는 2D 이미지 형태로 변환함으로써, 기존 비전 백본(ViT 등)과 자연스럽게 결합한다. 이 방식은 3D 힘 벡터를 카메라 좌표계에 투사해 시각적 특징과 동시 학습이 가능하도록 만든다.

MaskGIT 스타일의 마스크드 예측은 전체 시퀀스를 한 번에 복원하는 것이 아니라, 무작위 마스크 토큰을 점진적으로 채워 나가며 학습한다. 이는 트랜스포머가 장기 의존성을 효율적으로 학습하도록 돕고, 특히 비접촉 구간에서의 공간적 일관성을 유지하는 데 크게 기여한다. 또한, 공간‑시간 트랜스포머 구조는 시간 축에 걸친 동적 변화를 포착하면서도, 각 프레임의 공간적 구조를 보존한다는 두 마리 토끼를 잡는다.

추론 단계에서 도입된 ‘비전‑언어 모델 기반 충돌 판단’은 또 다른 중요한 기여이다. 예측된 롤아웃을 대규모 멀티모달 LLM에 입력해 “이 행동이 충돌을 일으킬 가능성이 있는가?”를 질문함으로써, 위험 행동을 사전에 차단한다. 이는 전통적인 모델 기반 제어에서 요구되는 복잡한 물리 엔진 시뮬레이션을 대체하거나 보완할 수 있는 실용적인 방법이다.

데이터셋인 DreamerBench은 Project Chrono를 활용해 강체와 연성 물체 모두를 포함하는 다양한 시나리오를 제공한다. RGB, 접촉 스플랫, 관절 상태, 물리 주석이 정확히 동기화돼 있기 때문에, 멀티모달 학습에 최적화된 환경을 제공한다. 그러나 현재는 전적으로 시뮬레이션 데이터에 의존하고 있어, 실제 로봇에 적용할 때 발생할 수 있는 센서 노이즈, 캘리브레이션 오차, 실시간 제약 등을 고려해야 한다.

한계점으로는 (1) 마스크드 학습이 대규모 데이터와 연산 자원을 요구한다는 점, (2) 접촉 스플랫이 깊이 정보에 크게 의존하므로 깊이 센서가 부정확할 경우 성능 저하가 우려된다는 점, (3) LLM 기반 충돌 판단이 프롬프트 설계에 민감해 재현성 문제가 발생할 수 있다는 점을 들 수 있다. 향후 연구에서는 (가) 실제 로봇 플랫폼에서의 도메인 적응 기법을 도입해 시뮬‑실 세계 격차를 메우고, (나) 경량화된 트랜스포머와 효율적인 마스크 전략을 개발해 실시간 추론을 가능하게 하며, (다) 멀티모달 LLM을 직접 fine‑tuning해 충돌 판단의 신뢰성을 높이는 방향이 기대된다.

📄 논문 본문 발췌 (Excerpt)

## [시간을 꿈꾸는 로봇 조작을 위한 행동조건 세계모델] 전문 한국어 번역

서론:

로봇이 접촉이 풍부한 환경에서 작동하려면 궤적 계획이 필요하며, 이는 작업 목표와 충돌 제약 조건 모두를 고려해야 합니다. 고전적인 접근 방식은 명시적인 기하학적 모델과 물리 시뮬레이터를 기반으로 하지만, 고충실도 시뮬레이션은 실시간 제어에 대한 재현 속도가 느리고, 시뮬레이션에서 실제 세계로의 격차는 심지어 세심한 캘리브레이션에도 불구하고 존재합니다. 학습된 세계 모델은 이러한 문제를 해결하는 대안적인 경로입니다. 미래 상태를 행동에 따라 조건화함으로써 상상력을 통한 계획이 가능해지며, 이는 실시간 제어와 호환되는 속도로 구현될 수 있습니다. 그러나 대부분의 비디오 예측 모델은 시각적 신뢰성을 중시하지만, 접촉력, 마찰 모드, 관절 상태와 같은 물리적 양식은 무시합니다. 이러한 양식은 안전한 궤적이 결정되는 데 필수적입니다.

본 연구는 비디오 생성 및 접촉 인식 계획 사이의 격차를 해소하는 것을 목표로 합니다. 우리는 ChronoDreamer라는 행동 조건 세계 모델을 소개합니다. 이 모델은 미래 RGB 프레임, 접촉 맵, 관절 각도를 동시에 예측하며, 마스크GIT 스타일의 마스킹된 예측과 요약된 어휘를 사용하여 훈련됩니다.

ChronoDreamer:

ChronoDreamer는 공간-시간 트랜스포머 아키텍처로, 행동 조건 비디오 예측을 수행합니다. 이 모델은 32x32의 양자화된 토큰 그리드 형태로 256x256의 RGB 프레임을 인코딩하는 Cosmos DI8×8 인코더를 사용하여 훈련 데이터 파이프라인을 설계합니다.

핵심 구성 요소:

  1. 인코더 아키텍처: 비디오 인코더는 입력 RGB 프레임을 65,536개의 어휘 크기의 양자화된 토큰 그리드로 변환합니다. 이 과정은 두 단계로 이루어집니다: 연속적인 특징 추출과 비학습적 양자화입니다.
  2. 비학습적 양자화 (FSQ): FSQ는 연속적인 latent 채널을 고정된 집합의 διακρι한 수준으로 매핑하는 비학습적 양자화 방법입니다. 각 채널은 독립적으로 양자화되어 65,536개의 고유한 값을 생성합니다.
  3. 토큰 요약: 어휘 크기가 큰 경우 토큰 임베딩은 요약됩니다. 예를 들어, 218개의 하위 어휘로 분할하면 각 토큰 인덱스는 두 개의 요약된 임베딩으로 분해됩니다.
  4. 입력 모드: 모델은 역사 비디오 토큰, 역사 행동 벡터, 미래 행동 벡터, 역사 관절 각도 등 4가지 입력을 받습니다.
  5. 포지션 인코딩: 학습 가능한 포지션 인코딩은 시간적 및 공간적 위치를 인코딩합니다.

공간-시간 트랜스포머:

ChronoDreamer의 핵심은 L = 24개의 동일한 블록으로 구성된 ST-트랜스포머 디코더입니다. 각 블록은 요약된 공간 및 시간 주의를 순차적으로 적용한 후 위치 지향적인 피드포워드 네트워크를 수행합니다.

훈련:

모델은 마스킹된 미래 프레임 토큰을 예측하는 마스크 언어 모델링(MLM) 목표를 사용하여 훈련됩니다. 마스킹은 미래의 토큰을 숨기고, 모델은 주변 컨텍스트를 기반으로 원래 토큰을 예측해야 합니다.

평가:

…(본문이 길어 생략되었습니다. 전체 내용은 원문 PDF를 참고하세요.)…

📸 추가 이미지 갤러리

page_1.png page_2.png page_3.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키