공간 인식 로봇을 위한 깊이‑통합 3D 포인트 예측 프레임워크 SpatialPoint

본 논문은 로봇이 인간과 자연어로 소통하면서 정확히 어디에서 행동해야 하는지를 판단하는 핵심 문제인 “Embodied Localization”을 정의하고, 이를 해결하기 위한 새로운 프레임워크인 **SpatialPoint**를 제안한다. 기존 비전‑언어 모델(VLM)은 주로 RGB 이미지와 텍스트를 입력받아 2D 레이블(바운딩 박스, 마스크 등)을 출력했으며, 3D 메트릭 정보를 암묵적으로 학습하려 하면 장면 간 일반화가 크게 떨어지는 문제가 있었다. 반면 로봇 시스템에서는 RGB‑D 센서가 보편화돼 있어, 직접적인 깊이 정보를 활용하는 것이 보다 효율적이다. 저자는 이러한 격차를 메우기 위해, RGB와 구조화된 깊이(depth) 정보를 동시에 입력받아 **카메라 좌표계상의 3D 포인트(u, v, Z)** 를 직접 생성하는 모델을 설계했다. ### 1. 문제 정의와 목표 타입 Embodied Localization은 “시각적 관찰 + 언어 명령 → 실행 가능한 3D 포인트”라는 함수 형태로 정의된다. 여기서 목표 포인트는 두 가지 유형으로 구분된다. - **Touchable Point**: 물체 표면에 접촉 가능한 3D 좌표. 물체를 잡거나 눌러야 하는 조작 작업에 사용된다. - **Air Point**: 자유 공간에 존재하는 3D 좌표. 물체를 놓는 위치, 로봇이 이동해야 할 목표 지점, 혹은 “왼쪽에 0.5 m 떨어진 곳”과 같은 방향·거리 명령을 표현한다. 두 타입을 동시에 다루면, 물체 조작부터 이동 경로 지정까지 로봇 행동을 하나의 통일된 인터페이스로 표현할 수 있다. ### 2. 데이터 구축: SpatialPoint‑Data와 엔진 대규모 학습을 위해 2.6 M개의 RGB‑D 기반 QA 쌍을 수집·생성하였다. 데이터는 두 부분으로 나뉜다. - **Touchable‑Data**: 기존 RoboAfford 데이터셋의 2D 주석(물체 위치, 접촉점 등)을 활용한다. 각 (u, v) 좌표에 대해 사전 학습된 monocular depth estimator를 적용해 깊이 Z 값을 조회하고, (u, v, Z) 형태로 리프팅한다. 이렇게 1.9 M개의 터치 가능한 포인트 샘플을 만든다. - **Air‑Data**: DINO‑X 모델을 이용해 이미지에서 객체의 캡션, 바운딩 박스, 마스크를 추출한다. 추출된 정보와 깊이 맵, 카메라 내적값을 결합해 장면을 3D 점군으로 변환하고, 객체 간 기하학적 관계(방향, 거리, 중간점 등)를 계산한다. 이를 기반으로 “왼쪽에 30 cm”, “A와 B 사이에” 등 다양한 자유 공간 질의를 자동 생성한다. 총 0.72 M개의 Air 포인트 QA 쌍을 확보하였다. 두 데이터 유형을 모두 포함하는 **SpatialPoint‑Bench**를 설계해, O‑AP(객체 affordance 정확도), O‑AR(객체 인식 정확도), SAL(공간 affordance 정확도) 및 깊이 MAE(밀리미터) 등 다중 지표로 모델 성능을 평가한다. ### 3. 모델 설계: Depth‑aware VLM SpatialPoint은 기존 대형 VLM(예: Qwen‑VL)을 기반으로 하면서, 깊이 전용 백본을 추가한다. 구체적인 흐름은 다음과 같다. 1. **입력 전처리**: RGB 이미지는 기존 비전 토크나이저로, 깊이 맵은 1채널을 3채널 uint8 이미지로 변환 후 전용 깊이 백본에 입력한다. 2. **토큰 생성**: RGB와 깊이 각각에 대해 시각 토큰 시퀀스를 만든 뒤, 와 토큰으로 구분한다. 텍스트(명령) 토큰은 기존 언어 토크나이저를 사용한다. 3. **멀티모달 트랜스포머**: RGB 토큰, 깊이 토큰, 텍스트 토큰을 하나의 시퀀스로 결합해 멀티모달 트랜스포머에 입력한다. 4. **출력 디코딩**: 언어 모델 헤드가 (u, v, Z) 좌표를 순차적으로 생성한다. 좌표는 정수형 토큰으로 직접 예측되며, 별도의 좌표 binning 없이 원시값을 학습한다. ### 4. 학습 전략 깊이 백본을 기존 VLM에 무리 없이 통합하기 위해 **두 단계 학습**을 도입한다. - **Stage 1**: 깊이 백본을 고정하고, RGB‑Depth‑Text 프리픽스를 이용해 멀티모달 트랜스포머와 언어 헤드만 미세조정한다. 이 단계에서는 모델이 깊이 토큰을 “보조 정보”로 인식하도록 한다. - **Stage 2**: 깊이 백본을 점진적으로 언어‑시각 공동 표현에 맞추어 fine‑tune한다. 이렇게 하면 깊이 토큰이 실제 기하학적 편향으로 작용해, 좌표 예측 정확도가 크게 향상된다. ### 5. 실험 결과 - **정량적 평가**: RGB‑only VLM 대비 SpatialPoint은 O‑AP, O‑AR, SAL 모두 8~15% 상승을 기록했다. 특히 Air‑Point에 대한 방향·거리 추론에서 깊이 토큰이 큰 효과를 보였다. 깊이 MAE는 실측 깊이와의 차이가 200 mm 이하로 감소했으며, 내부(inside)와 외부(outside) 포인트 모두에서 일관된 개선을 보였다. - **비교 모델**: Depth Plugin(SpatialRGPT), 후처리 보정, Point‑Cloud 기반 VLA 등과 비교했을 때, 구조화된 깊이 토큰을 직접 입력한 SpatialPoint이 가장 높은 전반적 성능을 달성했다. - **실제 로봇 적용**: 세 가지 시나리오(로봇 팔 그리핑, 물체 배치, 모바일 네비게이션)에서 실시간으로 3D 목표점을 생성하고, 이를 로봇 제어 모듈에 전달해 성공적인 작업 수행을 확인했다. 특히 자유 공간 목표를 지정하는 Air‑Point는 기존 RGB‑only 모델이 종종 실패하던 경우에도 정확히 목표 위치를 찾았다. ### 6. 기여 및 의의 1. **Embodied Localization**이라는 새로운 문제 정의와, 터치 가능한 점과 자유 공간 점이라는 두 가지 보완적인 목표 타입을 제시함으로써 로봇 행동을 통합된 3D 목표 예측 문제로 재구성했다. 2. 2.6 M 규모의 **RGB‑D QA 데이터셋**과 **표준 벤치마크**를 공개해, 향후 연구자들이 깊이‑통합 VLM을 비교·확장하기 위한 기반을 마련했다. 3. **Depth‑aware VLM** 설계와 두 단계 학습 전략을 통해, 사전 학습된 대형 모델에 새로운 모달리티를 효과적으로 삽입하는 방법론을 제시했다. 이는 로봇뿐 아니라 AR/VR, 자율 주행 등 메트릭 깊이가 중요한 다양한 분야에 적용 가능하다. 전반적으로 이 논문은 깊이 정보를 단순 보조가 아니라 **기하학적 편향**으로 활용함으로써, 비전‑언어 모델이 실제 물리 세계에서 실행 가능한 3D 좌표를 직접 생성하도록 만든 최초의 대규모 연구 중 하나이며, 로봇 시스템의 인지‑제어 파이프라인을 크게 단순화하고 성능을 향상시킨다.

공간 인식 로봇을 위한 깊이‑통합 3D 포인트 예측 프레임워크 SpatialPoint

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기