
통합 구현형 VLM 추론과 로봇 행동을 위한 자동회귀 이산 사전학습
이 논문은 로봇 조작 시스템이 직면한 두 가지 핵심 과제, 즉 “넓은 의미적 일반화”와 “고정밀 연속 제어” 사이의 균형을 정밀하게 진단하고 해결책을 제시한다는 점에서 큰 의미가 있다. 먼저 ERIQ(Embodied Reasoning Intelligence Quotient)라는 새로운 벤치마크를 도입했는데, 이는 기존 VLA 모델 평가가 “입력‑출력” 형태의 성공률에만 초점을 맞추는 반면, 질문‑답변 형태의 6천 개 이상 데이터셋을 통해 ‘추론 단계’를 별도로 측정한다는 점이 차별점이다. 네 가지 추론 차원(예: 물체 관계 이해,











