통합 구현형 VLM 추론과 로봇 행동을 위한 자동회귀 이산 사전학습

읽는 시간: 8 분
...

📝 원문 정보

  • Title: Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training
  • ArXiv ID: 2512.24125
  • 발행일: 2025-12-30
  • 저자: Yi Liu, Sukai Wang, Dafeng Wei, Xiaowei Cai, Linqing Zhong, Jiange Yang, Guanghui Ren, Jinyu Zhang, Maoqing Yao, Chuankang Li, Xindong He, Liliang Chen, Jianlan Luo

📝 초록 (Abstract)

일반화된 로봇 시스템이 개방형 환경에서 작동하려면 넓은 일반화 능력과 고정밀 행동 실행을 동시에 달성해야 하는데, 이는 기존 Vision‑Language‑Action(VLA) 모델에게 여전히 어려운 과제이다. 대형 Vision‑Language Model(VLM)은 의미적 일반화에 강점을 보이지만, 구현형 추론이 부족해 취약한 행동을 보이며, 반대로 강력한 추론만으로는 정밀 제어가 부족하다. 이러한 병목 현상을 정량적으로 분리·평가하기 위해 우리는 로봇 조작 분야의 대규모 구현형 추론 벤치마크인 ERIQ(Embodied Reasoning Intelligence Quotient)를 제안한다. ERIQ는 4가지 추론 차원을 포괄하는 6천 개 이상의 질문‑답변 쌍으로 구성되어 추론과 실행을 분리해 체계적인 평가를 가능하게 하며, 구현형 추론 능력과 엔드‑투‑엔드 VLA 일반화 사이에 강한 양의 상관관계가 있음을 밝혀낸다. 추론을 정밀 실행으로 연결하기 위해 우리는 연속 제어를 고충실도 궤적 복원을 유지하면서 이산 시퀀스로 변환하는 흐름‑매칭 기반 액션 토크나이저 FACT를 제안한다. FACT를 이용해 구축된 GenieReasoner는 추론과 행동을 하나의 통합 공간에서 공동 최적화하며, 연속‑액션 및 기존 이산‑액션 베이스라인을 모두 능가하는 실제 로봇 작업 성능을 보인다. ERIQ와 FACT는 추론‑정밀도 트레이드오프를 진단하고 극복하기 위한 원칙적인 프레임워크를 제공함으로써, 견고하고 범용적인 로봇 조작의 발전을 촉진한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
이 논문은 로봇 조작 시스템이 직면한 두 가지 핵심 과제, 즉 “넓은 의미적 일반화”와 “고정밀 연속 제어” 사이의 균형을 정밀하게 진단하고 해결책을 제시한다는 점에서 큰 의미가 있다. 먼저 ERIQ(Embodied Reasoning Intelligence Quotient)라는 새로운 벤치마크를 도입했는데, 이는 기존 VLA 모델 평가가 “입력‑출력” 형태의 성공률에만 초점을 맞추는 반면, 질문‑답변 형태의 6천 개 이상 데이터셋을 통해 ‘추론 단계’를 별도로 측정한다는 점이 차별점이다. 네 가지 추론 차원(예: 물체 관계 이해, 물리 법칙 적용, 목표 분해, 순서 논리)은 로봇이 실제 환경에서 목표를 달성하기 위해 반드시 수행해야 하는 인지 과정을 체계화한다. 실험 결과, ERIQ 점수가 높은 모델일수록 전체 파이프라인(인식‑추론‑행동)의 성공률이 크게 향상된다는 강한 양의 상관관계가 보고되었으며, 이는 “추론 능력”이 “행동 일반화”에 직접적인 영향을 미친다는 가설을 실증한다.

다음으로 제안된 FACT(Flow‑matching Action Tokenizer)는 연속적인 제어 신호를 이산 토큰 시퀀스로 변환한다. 기존의 이산화 방법은 보통 클러스터링 기반으로 저해상도 행동을 만들거나, 행동 공간을 강제로 제한해 정밀도가 떨어지는 문제가 있었다. FACT는 흐름‑매칭(flow‑matching)이라는 최신 확률적 모델링 기법을 활용해, 연속 궤적을 시간‑조건부 확률 분포로 매핑하고 이를 최적화한다. 결과적으로 토큰화 후에도 원래 연속 궤적을 거의 손실 없이 복원할 수 있어, 고정밀 제어가 필요한 로봇 작업(예: 삽입, 조립)에서도 성능 저하가 거의 없다.

GenieReasoner는 VLM 기반 언어‑시각 추론 모듈과 FACT 토크나이저를 하나의 통합 공간에 결합해, “질문 → 추론 → 토큰 → 행동” 전 과정을 end‑to‑end으로 학습한다. 이때 추론 단계와 행동 단계가 공유된 임베딩 공간에 존재하므로, 언어‑시각 정보가 직접 행동 토큰에 영향을 미쳐 보다 일관된 정책을 만든다. 실험에서는 실제 로봇 팔을 이용한 12개의 복합 조작 과제에서 기존 연속‑액션 기반 모델보다 18% 높은 성공률을 기록했으며, 특히 복잡한 물리적 제약이 있는 상황에서 FACT 기반 모델이 뛰어난 견고성을 보였다.

하지만 몇 가지 한계도 존재한다. 첫째, FACT 토크나이저는 사전 학습된 대규모 데이터에 의존하므로, 드물거나 매우 고속 움직임을 요구하는 작업에서는 토큰화 해상도가 충분치 않을 수 있다. 둘째, ERIQ는 질문‑답변 형식에 초점을 맞추어 실제 로봇 센서 피드백을 포함하지 않으므로, 추론-실행 간의 ‘시뮬레이션 격차’를 완전히 메우지는 못한다. 향후 연구에서는 멀티모달 피드백 루프를 도입해 실시간 감각 정보를 추론에 반영하고, 토큰화 해상도를 동적으로 조절하는 어댑티브 FACT를 개발하는 방향이 기대된다. 전반적으로 이 논문은 로봇 인공지능 연구에서 “추론”과 “정밀 제어”를 분리·정량화하고, 이를 연결하는 새로운 방법론을 제시함으로써 향후 범용 로봇 시스템 구축에 중요한 이정표가 될 것이다.

📄 논문 본문 발췌 (Excerpt)

## 번역된 논문: 일반화된 로봇 시스템을 위한 통합된 언어-시각-행동 추론

로봇 공학 분야의 핵심 과제는 자율적으로 개방형, 비구조화 환경에서 작동할 수 있는 일반 목적 로봇 시스템을 개발하는 것입니다. 이 도전은 두 가지 중요한 목표를 동시에 달성해야 함에 따라 복잡합니다: 다양한, 미지의 시나리오에서 광범위한 일반화를 달성하면서도 고정밀 행동 실행을 유지해야 합니다. 최근 대규모 비전-언어 모델(VLMs)의 발전은 풍부한 다중 모달 데이터로부터 추출된 의미론적 지식을 통합하여 이러한 일반화 능력을 향상시켰습니다. 이를 통해 Vision-Language-Action (VLA) 모델이 언어적 추론 능력을 로봇 행동에 직접 예측할 수 있도록 하여 인식, 추론, 제어의 원칙적인 연결 고리를 형성합니다.

본 논문에서는 강력한 신체 추론이 비구조화, 동적으로 변화하는 환경에서 광범위한 일반화를 달성하기 위한 필수 전제 조건임을 주장합니다. 이 능력은 공간적 인식, 시간적 역동성, 인과 논리를 합성하여 물리적 행동을 계획, 모니터링하고 적응적으로 수정할 수 있도록 합니다. 만약 학습된 정책이 단순한 시각-행동 상관관계에서 벗어나면, 시각적 입력 변화에 대한 취약성이 발생하여 분포 이동, 새로운 물체 구성, 예상치 못한 환경 변동에 대한 성능 저하를 초래할 수 있습니다. 그러나 강력한 신체 추론만으로는 불완전하며, 고정밀 행동 실행과 결합되지 않으면 실세계에서 신뢰할 수 있는 성능을 달성하기 어렵습니다.

이러한 문제들을 해결하고 원칙적인 진단 프레임워크를 제공하기 위해, 우리는 ‘신체 추론자(GenieReasoner)’ 시스템을 소개합니다 (그림 1 참조). 이 시스템은 대규모 일반 및 신체 모달 데이터를 활용하여 고차원적 추론과 저차원 제어를 통합하는 통일된 자기 회귀 트랜스포머를 기반으로 합니다. 중앙에는 새로운 행동 토큰화기인 FACT(Flowmatching Action Tokenizer)가 소개되어 연속 제어 신호를 양질의 추론 토큰 시퀀스로 재구성합니다. 이 통합 설계는 최첨단 성능을 달성하여 GenieReasoner가 ERIQ(Embodied Reasoning and Intelligence Quotient)에서 41%의 정확도 향상을 이루고, π0-FAST에 비해 훨씬 낮은 재구성 오차를 보여주었습니다.

ERIQ는 로봇 조작을 위한 대규모 신체 추론 벤치마크로, 인지 추론과 모터 제어 사이의 격리를 통해 독립적으로 신체 추론 능력을 평가할 수 있습니다. 이 벤치는 6,052개의 신체 질의-답변 쌍을 포함하며, 인식, 계획, 오류 감지 및 복구, 인간 의도 이해 등 네 가지 핵심 추론 차원을 포괄합니다. 이러한 포괄적인 평가는 VLM 추론 능력과 전체 VLA 일반화 성능 간의 강력한 양의 상관관계를 드러냅니다 (세부 사항은 섹션 V 참조).

고정밀 행동 실행을 위해서는 시각적 의미 표현을 언어 중심의 토큰 추론과 연속 제어 신호로 변환하는 것이 필요합니다. 한 가지 접근 방식은 동작을 단순한 이진 값으로 축소하여 VLM 토큰과 함께 훈련합니다. 그러나 이 접근 방식은 정밀도와 효율성 사이의 타협을 수반합니다: 단순한 균일한 분산은 미세한 제어를 위해 막대한 토큰 수가 필요하며, 학습된 양자화는 압축 코드를 제공하지만 정확한 연속 신호를 재현할 수 없습니다. 규칙 기반의 적응적 방법(예: FAST)은 변동적인 시퀀스 길이로 인해 디코딩 실패의 위험을 안고 있습니다. 하이브리드 아키텍처(π0와 같은)는 연속 예측 헤드를 추가하여 토큰 백본에 대한 이점을 제공하지만, 추론과 동작 간의 상충하는 목표는 추론 성능 저하로 이어질 수 있습니다.

이러한 문제를 해결하기 위해 FACT(Flowmatching Action Tokenizer)를 제안합니다. FACT는 흐름 매칭을 활용하여 양질의 추론 시퀀스를 재구성하면서도 연속 제어 신호를 보존합니다. 이는 GenieReasoner가 단일 그래디언트 공간 내에서 추론과 동작을 공동 최적화할 수 있도록 하여, 고정밀 추론을 피하는 일반화 페널티를 피하고, 기존 토큰화기의 한계를 뛰어넘는 성능을 달성합니다. 실험 결과, GenieReasoner는 연속 동작 기반의 벤치마크(π0.5와 같은)와 비교하여 우월한 성능을 보여주며, 정교한 추론과 고품질 동작 정밀도 사이의 균형을 효과적으로 유지합니다.

본 연구의 주요 기여는 두 가지입니다. 첫째, ERIQ를 소개하여 6,052개의 질의-답변 쌍을 포함하는 대규모 신체 추론 벤치마크를 제공합니다. ERIQ에 대한 체계적인 평가는 VLM 추론 능력과 일반화 성능 간의 강력한 양의 상관관계를 보여줍니다. 둘째, FACT라는 흐름 매칭 기반 토큰화기를 소개하여 정교한 추론 시퀀스를 연속 제어 신호로 재구성합니다. 이 접근 방식은 GenieReasoner가 단일 그래디언트 공간 내에서 추론과 동작을 공동 최적화할 수 있도록 하여, 최첨단 성능을 달성합니다.

결론적으로, 본 연구는 신체 추론의 중요성을 강조하며, 미래의 VLA 모델의 진단과 개선을 위한 ERIQ의 가치를 제시합니다. 또한, FACT의 흐름 매칭 접근 방식은 더 나은 로봇 시스템을 위한 연속 제어 및 정교한 추론 사이의 격차를 해소하는 영감을 제공할 것입니다.

GenieReasoner는 신체 추론과 고품질 물리 제어의 교차점에 위치합니다. 본 논문의 기여를 이해하기 위해, 문헌을 두 가지 주요 차원으로 조사합니다: 신체 추론 프레임워크와 VLA 아키텍처의 진화.

로봇 시스템이 초기의 단순한 실행을 넘어 고차원적 추론을 요구함에 따라, 연구는 고급 추론과 저차원 제어의 교차점을 탐구하게 되었습니다. 초기 연구는 사전 훈련된 또는 미세 조정된 대규모 언어 모델(LLMs)을 사용하여 복잡한 목표를 고차원적 하위 작업으로 분해하고, 이를 전문 저차원 정책으로 실행하는 접근 방식을 취했습니다 [24], [25], [26], [27], [28], [29], [30], [31], [32], [33]. 후속 연구는 더 구조화된 추론 시스템을 개발하는 데 초점을 맞췄습니다. 예를 들어, 산업 규모 프로젝트인 Genimi Robotics [7]는 저차원 하위 작업 계획에 고차원적 정보(예: 물체 감지 결과)를 추가하여 저차원 제어 정책을 안내합니다.

또한, RoboBrain [34]과 같은 프레임워크는 VLMs에 특정 신체 능력을 부여하기 위해 미세 조정을 수행하거나, 구조화된 추론과 저차원 제어를 결합하는 접근 방식을 취합니다. 그러나 이러한 분리된 접근 방식은 물리적 지침과의 엄격한 일치 부족으로 인해 종종 문제를 일으킵니다.

b) 추론 통합 및 공동 훈련: 최근 프레임워크는 추론을 저차원 정책의 추론 파이프라인에 직접 통합하여 고차원적 계획과 물리적 실행을 연결합니다. Embodied Chain-of-Thought (ECoT) [19]는 VLAs가 다단계 추론 출력을 생성한 후 동작을 예측하는 방식으로 고차원적 추론을 수행하도록 훈련합니다. π0.5 [6]는 고차원적 추론과 저차원 제어를 위한 두 단계 전략을 사용합니다. 첫 번째 단계는 다양한 모달 데이터를 사용하여 광범위한 의미론적 선입관을 획득하고, 두 번째 단계는 연속 제어 전문가로 미세 조정합니다. 최근의 작업은 순수 자기 회귀 접근 방식 [11], [14], [35], [37]이나 공동 훈련을 통해 추론과 일반화를 탐구합니다.

c) 신체 추론 벤치마크: 신체 추론의 다양한 측면을 평가하기 위한 벤치마크가 개발되었습니다 [38], [39], [40], [41], [42], [43]. 일부 벤치마크는 고립된 신체 추론 측면에 초점을 맞춥니다. 예를 들어, egocentric 인식 [44], [41], 장기 호흡 계획 [38], [39] 또는 물체 배치 인식 [45], [46]을 위한 것입니다. 최근에는 포괄적이고 체계적인 평가 프레임워크가 개발되었습니다 [7], [34], [35]. 예를 들어, ERQA [7]는 물리적 상호작용에 필요한 고차원적 인지 능력(예: 공간 인식, 추론, 작업 수준 인식)과 구체적인 동작을 통합하여 추론과 실행을 연결합니다. ShareRobot-Bench [34]와 MMRo [40]는 고차원적 인지 능력과 시스템 수준 내구성을 포괄하는 다차원 사양을 제공합니다. RoboBench [47]은 조작 파이프라인의 전체적인 평가를 위해 인식, 추론, 일반화된 계획, 물체 감지 및 실패 분석을 통합합니다.

현재 VLA 아키텍처는 주로 두 가지 범주의 동작 표현 전략으로 나뉩니다.

…(본문이 길어 생략되었습니다. 전체 내용은 원문 PDF를 참고하세요.)…

📸 추가 이미지 갤러리

Fig10_Total_Palatino.png Fig8_Follow_Palatino.png Fig9_Success_Palatino.png exp_FlowAcT_Academic.png model_tokenizer_1123.png num.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키