SAGA: 유연하고 적응력 있는 시각 모터 제어 프레임워크
읽는 시간: 2 분
...
📝 원문 정보
- Title: SAGA: Open-World Mobile Manipulation via Structured Affordance Grounding
- ArXiv ID: 2512.12842
- 발행일: 2025-12-14
- 저자: Kuan Fang, Yuxin Chen, Xinghao Zhu, Farzad Niroui, Lingfeng Sun, Jiuguang Wang
📝 초록 (Abstract)
본 논문에서는 다양한 환경, 작업 목표 및 사용자 사양에 걸쳐 일반화할 수 있는 유연하고 적응력 있는 시각-모터 제어 프레임워크인 SAGA를 소개합니다. 이를 효율적으로 학습하기 위해 우리의 주요 아이디어는 고수준의 의미적 의도와 저수준의 시각-모터 제어를 명시적으로 관찰된 환경에 기반한 작업 목표로 분리하는 것입니다. 행동 표현을 통일되고 구조화된 형태로 나타내기 위해 능동성 기반 작업 표현을 사용합니다. 다중 모달 기초 모델을 활용하여 SAGA는 제안된 작업 표현을 로봇의 시각적 관찰에 3D 능동성 히트맵으로 근거를 두어, 일반화를 방해할 수 있는 부수적인 외관 변이를 추상화하면서 작업 관련 엔티티를 강조합니다. 이러한 근거가 된 능동성은 다중 작업 示範數據上訓練條件策略,實現全身控制。在統一框架下,SAGA可以解決不同形式指定的任務,包括語言指令、選擇點和示範演示,支持零次執行和少量適應。我們將SAGA應用於四足操作器並進行了十一項真實世界任務的廣泛實驗。SAGA在所有任務中均大幅超越端到端和模組化基線方法。這些結果共同證明了結構化的功能接地為通用移動操控提供了一種可擴展且有效的途徑。💡 논문 핵심 해설 (Deep Analysis)
본 논문은 SAGA라는 새로운 프레임워크를 소개하며, 이는 다양한 환경과 작업 목표에 걸쳐 일반화할 수 있는 유연하고 적응력 있는 시각-모터 제어를 제공합니다. 핵심 아이디어는 고수준의 의미적 의도와 저수준의 시각-모터 제어를 분리하는 것입니다. 이를 위해 능동성 기반 작업 표현을 사용하여 복잡한 행동을 통일되고 구조화된 형태로 나타냅니다. 다중 모달 기초 모델을 활용하여 SAGA는 로봇의 시각적 관찰에 3D 능동성 히트맵으로 근거를 두어, 작업 관련 엔티티를 강조하고 일반화를 방해할 수 있는 부수적인 외관 변이를 추상화합니다. 이러한 접근법은 다중 작업 示範數據上訓練條件策略,實現全身控制。在統一框架下,SAGA可以解決不同形式指定的任務,包括語言指令、選擇點和示範演示,支持零次執行和少量適應。📄 논문 본문 발췌 (Excerpt)
Reference
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.