하이SD 로봇 비전언어행동 모델을 위한 하이브리드 추론 가속

본 논문은 로봇 제어에 사용되는 비전‑언어‑행동(VLA) 모델의 추론 속도를 높이기 위해, 초안 생성 방식이 서로 다른 두 종류의 추측 디코딩(SD)을 하이브리드로 결합한 HeiSD 프레임워크를 제안한다. 검증‑스킵 메커니즘과 시퀀스‑와이드 완화 수용 전략으로 검색 기반 SD의 초안 품질 문제를 완화하고, 운동학 기반 융합 지표를 이용해 자동으로 하이브리드 경계를 결정한다. 실험 결과, 시뮬레이션에서 최대 2.45배, 실제 로봇에서 2.06~2…

저자: Zihao Zheng, Zhihao Mao, Sicheng Tian

하이SD 로봇 비전언어행동 모델을 위한 하이브리드 추론 가속
**배경 및 문제 정의** Vision‑Language‑Action(VLA) 모델은 시각 입력, 자연어 명령, 로봇 행동을 통합해 복합적인 조작 과제를 해결하는 최신 로봇 제어 프레임워크이다. 그러나 대규모 LLM 기반의 VLA 모델은 토큰을 순차적으로 생성하는 autoregressive 구조 때문에 추론 지연이 크고, 실시간 제어에 부적합한 경우가 많다. 이를 해결하기 위해 Speculative Decoding(SD)이 제안되었으며, 초안(draft) 생성 방식을 기준으로 drafter‑based SD와 retrieval‑based SD 두 갈래로 나뉜다. drafter‑based SD는 작은 초안 모델을 별도로 학습·운용해 고품질 초안을 빠르게 생성하지만, 초안 모델 자체의 연산 비용이 존재한다. 반면 retrieval‑based SD는 사전 구축된 벡터 데이터베이스에서 유사한 행동 시퀀스를 검색해 초안을 만든다. 이 방식은 초안 모델이 필요 없으므로 이론적인 속도 향상이 크지만, 데이터베이스 초안이 현재 상황과 정확히 일치하지 않아 검증 단계에서 거부당하는 경우가 빈번하고, 같은 초안이 반복적으로 재검색되는 ‘persistent reject’ 문제가 있다. **핵심 통찰** 저자들은 VLA 모델이 생성하는 로봇 궤적을 분석한 결과, 데이터베이스 초안이 정확히 일치하는 구간(‘overlap segment’)과 그렇지 않은 구간(‘non‑overlap segment’)이 명확히 구분된다는 사실을 발견했다. 즉, 일부 구간에서는 검색 기반 초안이 VLA 추론과 거의 동일한 궤적을 제공하므로 빠른 대체가 가능하고, 다른 구간에서는 초안 품질이 낮아 drafter‑based SD가 필요하다. 따라서 두 SD 방식을 **하이브리드**로 결합하면 각각의 장점을 살리면서 단점을 보완할 수 있다. **HeiSD 프레임워크 설계** 1. **Retrieval‑based SD 최적화** - *Adaptive Verify‑Skip 메커니즘*: VLA 모델의 최종 레이어(lm head)에서 추출한 특징 벡터 간 코사인 유사도를 이용한다. 오프라인 단계에서 과거 궤적 데이터로부터 최소 허용 유사도와 해당 거리(trajectory point distance)를 학습하고, 온라인 추론 시 현재 초안의 특징 유사도가 이 기준을 초과하면 검증 과정을 건너뛴다. 이를 통해 불필요한 검증 연산을 제거하고, 동일 초안이 반복적으로 거부되는 현상을 완화한다. - *Sequence‑wise Relaxed Acceptance*: 토큰 단위가 아닌 시퀀스 전체에 대해 허용 오차(예: 위치·각도 차이) 범위 내라면 초안을 수용한다. 이는 로봇 행동이 연속적인 특성을 고려한 설계로, 작은 편차가 최종 작업 성공에 큰 영향을 주지 않을 경우에도 초안을 받아들여 평균 수용 길이(AL)를 크게 늘린다. 2. **Hybrid Boundary 자동 결정** - *운동학 기반 융합 지표*: 로봇의 7‑DoF 행동을 (X, Y, Z, R_X, R_Y, R_Z, G)로 분해하고, 각 차원의 평균 절대 오차와 성공/실패 라벨을 결합한 스코어링 함수를 만든다. 이 지표가 사전에 정의된 임계값 이하이면 해당 구간을 retrieval‑based SD에 할당하고, 초과하면 drafter‑based SD를 적용한다. 이렇게 하면 실시간으로 구간을 판단해 자동 전환이 가능해진다. **실험 및 결과** - **데이터베이스 구축**: LIBERO 데이터셋을 기반으로 Qdrant 벡터 DB를 구축하고, 다양한 샤딩·인덱싱 전략을 적용했다. DB만을 이용한 추론은 일부 간단 과제(Goal)에서 68% 이상의 성공률을 보였으며, 속도는 3.7~4.8배 가속을 기록했다. - **시뮬레이션 벤치마크**: LIBERO‑Goal, Object, Spatial, Long 네 가지 과제에서 HeiSD는 기존 OpenVLA 대비 평균 2.2배, 최고 2.45배 속도 향상을 달성하면서 성공률은 71%~80% 수준으로 유지했다. 특히, Spatial·Long 과제에서 retrieval‑only SD가 53% 이하의 성공률을 보인 반면, HeiSD는 78%~80% 수준으로 회복했다. - **실제 로봇 실험**: 실제 로봇 팔에 적용한 결과, 속도 향상은 2.06배~2.41배이며, 작업 성공률은 70% 이상으로 시뮬레이션과 일관된 성능을 보였다. - **추가 분석**: Verify‑Skip 메커니즘 적용 시 평균 검증 횟수가 35% 감소했고, Sequence‑wise Relaxed Acceptance 적용 시 평균 수용 길이가 1.8배 증가했다. **의의 및 한계** HeiSD는 VLA 모델의 실시간 적용을 위한 실질적인 해결책을 제시한다. 초안 품질과 검증 비용 사이의 트레이드오프를 동적으로 조절함으로써, 기존 SD 방식이 갖는 ‘속도 vs 정확도’ 딜레마를 완화한다. 다만, 데이터베이스 품질에 크게 의존하므로, 새로운 환경이나 급격히 변하는 작업에 대해서는 DB 업데이트 비용이 발생한다. 또한, 현재는 7‑DoF 로봇에 특화된 지표를 사용했기 때문에, 다관절 로봇이나 비전 기반 비구조화 작업에 대한 일반화는 추가 연구가 필요하다. **결론** HeiSD는 검증‑스킵, 시퀀스‑와이드 수용, 운동학 기반 자동 경계 결정이라는 세 가지 핵심 기술을 결합해, VLA 모델의 추론 속도를 2배 이상 가속하면서도 높은 성공률을 유지한다. 이는 로봇 제어 분야에서 대규모 언어 모델을 실시간으로 활용할 수 있는 중요한 전환점이 될 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기