ESPADA: 의미와 3차원 관계를 활용한 시연 데이터 다운샘플링으로 로봇 실행 속도 2배 향상
ESPADA는 비전‑언어‑모델(VLM)과 대형 언어 모델(LLM)을 결합해 시연 영상에서 그리퍼‑물체 3D 거리를 추출하고, 이를 기반으로 “일반” 구간과 “정밀” 구간을 자동으로 구분한다. 일반 구간은 복제‑후‑다운샘플링(replicate‑before‑downsample) 방식으로 aggressive하게 압축하고, 정밀 구간은 거의 유지한다. 라벨은 한 에피소드만 수작업으로 지정한 뒤, 동적 시간 왜곡(DTW) 기반 전파로 전체 데이터셋에 확…
저자: Byungju Kim, Jinu Pahk, Chungwoo Lee
본 논문은 행동 복제 기반 비전‑모터 정책이 인간 시연의 느린 템포를 그대로 물려받아 실시간 로봇 제어에 부적합한 문제를 해결하고자 한다. 기존 연구들은 통계적·휴리스틱 지표(밀도, 엔트로피 등)에 의존해 가속 가능한 구간을 추정했지만, 이러한 접근법은 작업 의미와 물리적 접촉 상태를 무시해 정밀 구간을 오인식하거나 가속이 불가능한 구간을 놓치는 한계가 있었다.
ESPADA는 이러한 한계를 극복하기 위해 “의미‑공간 인식” 파이프라인을 설계한다. 먼저, Grounded‑SAM2와 Video‑Depth‑Anything을 이용해 시연 영상에서 물체와 그리퍼 마스크를 추적하고, 프레임별 깊이 맵을 추정한다. 이를 통해 각 프레임마다 그리퍼와 목표 물체 사이의 3차원 거리 r_t(g,o)를 계산한다. 이 거리 시계열은 “접근”, “정렬”, “조정” 등 작업 단계의 물리적 변화를 직접 반영한다.
다음으로, InternVL‑3.5와 같은 VLM을 사용해 선택된 키프레임(보통 4~8개)에서 장면을 요약하는 자연어 설명을 생성한다. 예를 들어 “왼쪽 그리퍼가 노란 컵에 접근한다”와 같은 문장을 얻는다. 이 텍스트와 거리 시계열을 LLM(GPT‑5)에게 전달하고, 사전에 정의된 few‑shot 예시(접근‑정지‑조정 패턴)를 포함한 프롬프트를 제공한다. LLM은 언어적 의미와 거리 변화를 동시에 고려해 각 구간을 ‘casual’(가속 가능)과 ‘precision’(가속 불가)으로 라벨링한다.
라벨이 부착된 구간에 대해서는 복제‑후‑다운샘플링(RBD) 방식을 적용한다. 복제 단계에서는 원본 프레임을 N_y배 복제해 시간적 연속성을 보존하고, 다운샘플링 단계에서는 지정된 가속 비율에 따라 프레임을 제거한다. 이때 “geometric consistency” 제약을 두어 가속된 구간의 총 이동 거리가 원본 구간과 동일하도록 조정한다(즉, K′를 조정해 ∑‖Δx‖가 보존된다). 결과적으로 일반 구간은 2~3배 빠르게 실행되지만, 정밀 구간은 거의 원본 속도를 유지한다.
라벨 전파는 ESPADA의 확장성을 담당한다. 한 에피소드(episode 0)만 수작업으로 라벨링하고, 나머지 에피소드는 banded DTW를 이용해 동작 시퀀스(관절 위치·속도 등)만을 기준으로 정렬한다. DTW는 시간적 비선형 변형을 허용하므로, 동일 작업이라도 시작·종료 시점이 다르거나 속도가 차이 나는 경우에도 라벨을 정확히 매핑한다. 이렇게 하면 VLM/LLM 파이프라인을 재실행할 필요 없이 전체 데이터셋에 라벨을 전파할 수 있다.
실험은 시뮬레이션과 실제 로봇(AI Worker)에서 ACT와 Diffusion Policy 두 가지 최신 행동 복제 모델을 대상으로 수행되었다. 네 가지 대표 작업(색상 분류, 펜‑컵 삽입, 컨베이어 이송, 주방용품 정리)에서 ESPADA는 평균 2.0×~3.6× 가속을 달성했으며, 성공률은 95% 이상 유지하거나 약간 향상되었다. 특히, 기존 DemoSpeedup이 엔트로피 기반 판단으로 정밀 구간을 오인식해 실패율이 급증했던 상황에서도 ESPADA는 거리와 의미론적 라벨을 결합해 정확히 구분함으로써 안정성을 확보했다.
한계점으로는 VLM/LLM 추론 비용이 높아 오프라인 전처리 시간이 오래 걸릴 수 있다는 점, 깊이 추정이 조명·반사에 민감해 거리 계산이 부정확해질 가능성, 그리고 현재 고정된 가속 비율 대신 작업별 최적 비율을 자동 탐색하는 메커니즘이 부재하다는 점을 들 수 있다. 향후 연구에서는 경량화된 VLM/LLM 모델, 멀티‑뷰 깊이 융합, 그리고 적응형 가속 비율 학습을 통해 이러한 제한을 극복할 수 있을 것이다.
결론적으로 ESPADA는 의미론적·공간적 정보를 활용해 인간 시연의 비효율성을 정량적으로 제거하고, 기존 행동 복제 파이프라인에 최소한의 수정만으로 실시간 로봇 제어에 적용 가능한 실용적인 솔루션을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기