RMBench: 기억 기반 로봇 조작 벤치마크와 정책 설계 인사이트

본 논문은 로봇 조작 분야에서 메모리(기억) 능력이 부족한 기존 정책들의 한계를 진단하고, 이를 체계적으로 평가·개선하기 위한 두 가지 핵심 기여를 제시한다. 첫 번째는 “Task Memory Complexity”(TMC)라는 새로운 메트릭을 정의하고, 이를 기반으로 9개의 기억 의존형 조작 과제를 설계한 RMBench 벤치마크이다. TMC는 부분관측 마코프 결정 과정(POMDP)에서 최적 정책이 의존해야 하는 최소 과거 관측 수를 정량화한다. M(0)은 현재 관측만으로 충분한 마크오프, M(1)은 단일 과거 관측이 필요, M(n)은 n개의 비연속적 과거 관측을 기억해야 함을 의미한다. 이 정의는 기존 벤치마크가 “긴 시간”을 강조하지만 실제 기억 요구를 정확히 측정하지 못하는 문제를 보완한다. RMBench는 RoboTwin 2.0 플랫폼 위에 SAPIEN 시뮬레이터를 사용해 구현되었으며, 9개의 이중팔 과제가 TMC 기준에 따라 배치된다. 다섯 개는 M(1) 유형(Observe and Pick Up, Rearrange Blocks, Put Back Block, Swap Blocks, Swap T)으로, 단일 키 프레임을 기억하면 해결 가능하고, 네 개는 M(n) 유형(Blocks Ranking Try, Press Button, Cover Blocks, Battery Try)으로 여러 시도와 피드백을 통해 누적된 정보를 필요로 한다. 각 과제는 정밀한 언어 주석과 시각‑언어 페어를 제공해 메모리 모듈 학습에 풍부한 감독 신호를 제공한다. 두 번째 기여는 Mem‑0라는 모듈식 메모리 정책이다. Mem‑0는 Planning Module과 Execution Module, 그리고 Subtask End Classifier로 구성된 이중 시스템 아키텍처를 갖는다. Planning Module은 초기 관측 o₀, 목표 g, 그리고 키 메모리 윈도우 Mₜ₋₁(완료된 서브태스크와 종료 시점 이미지) 를 입력으로 받아 다음 서브태스크를 예측한다. 키 메모리 윈도우는 “완료된 서브태스크 + 시각적 결과”를 집합 형태로 저장해, 비전‑언어 모델이 과거 행동을 명시적으로 참조하도록 만든다. 이는 매 프레임마다 플래닝을 호출하는 기존 VLA와 달리 서브태스크 종료 시점에만 플래닝을 수행해 O(N) 호출 복잡도로 연산 효율을 크게 개선한다. Execution Module은 두 가지 메모리 흐름을 결합한다. ① Anchor Memory는 장기적인 고정 정보를 보관해, M(n) 과제에서 버튼 누적 횟수나 블록 배치 순서와 같은 지속적 상태를 유지한다. ② Sliding Memory Window는 현재 서브태스크 수행 중에 필요한 단기 정보를 저장해, M(1) 과제에서 최근 물체 위치나 그립 상태를 빠르게 조회한다. 두 메모리는 각각 Cross‑Attention 기반 Fusion 레이어를 통해 Diffusion 기반 행동 디코더에 통합된다. 실험은 시뮬레이션과 실제 로봇(UR5e 이중팔) 두 환경에서 수행되었다. 기존 최첨단 VLA 정책(Pi0.6, RDT2, X‑VLA 등)은 M(0) 과제에서는 경쟁력을 보이지만 M(1)·M(n) 과제에서는 기억 손실로 성공률이 급격히 떨어진다. 반면 Mem‑0는 전체 과제에서 평균 22%p 높은 성공률을 기록했으며, 특히 M(n) 과제에서 35%p 이상의 향상을 보였다. Mem‑0의 각 구성 요소를 ablation(키 메모리 제거, 앵커 메모리 비활성화, 서브태스크 종료 분류기 교체)했을 때 성능 저하가 명확히 관찰되었다. 앵커 메모리를 제거하면 M(n) 과제 성공률이 30% 이상 감소하고, 키 메모리 윈도우를 없애면 서브태스크 전환 오류가 급증한다. 이러한 결과는 기억이 단순히 시퀀스 길이와 무관하게, 과제 구조에 맞는 메모리 인코딩과 검색 메커니즘이 필요함을 실증한다. 또한, 실제 로봇 실험에서는 시뮬레이션과 일관된 성공률을 보이며, Mem‑0가 시뮬레이션‑투‑리얼 격차를 크게 줄였음을 확인했다. 논문은 TMC 메트릭이 향후 새로운 기억 기반 과제 설계와 정책 비교에 표준화된 기준이 될 수 있음을 강조한다. 결론적으로, RMBench는 기억 요구도를 정량화한 과제 설계와 대규모 평가 파이프라인을 제공하고, Mem‑0는 기억 메커니즘을 모듈화·분석 가능한 형태로 구현함으로써 로봇 조작 정책 설계에 “기억 중심” 접근법을 제시한다. 향후 연구는 더 복잡한 다중 로봇 협업, 비정형 환경, 그리고 대규모 언어‑비전 사전학습 모델과의 통합을 통해 기억 능력을 확장하는 방향으로 진행될 수 있다.

RMBench: 기억 기반 로봇 조작 벤치마크와 정책 설계 인사이트

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기