깊이와 단일 카메라 정보를 융합한 9자유도 물체 자세 추정

DeMo‑Pose는 RGB 단일 카메라에서 추출한 의미론적 특징과 깊이 기반 그래프 컨볼루션 표현을 결합하고, 메쉬 구조를 활용한 Mesh‑Point Loss(MPL)를 도입해 9‑DoF(위치·회전·크기) 카테고리 수준 물체 자세를 실시간으로 추정한다. REAL275 벤치마크에서 3D IoU 3.2%·포즈 정확도 11.1% 향상을 달성했다.

저자: Rachit Agarwal, Abhishek Joshi, Sathish Chalasani

깊이와 단일 카메라 정보를 융합한 9자유도 물체 자세 추정
본 논문은 카테고리 수준 9자유도(6D 자세 + 3D 크기) 물체 자세 추정을 목표로, RGB‑Depth 융합의 기존 한계를 극복하는 DeMo‑Pose라는 새로운 프레임워크를 제안한다. 기존 연구는 인스턴스 수준 6D 자세 추정에서 CAD 모델을 필요로 하거나, 깊이 전용 방법이 RGB의 의미 정보를 활용하지 못한다는 문제점을 가지고 있었다. 특히, 깊이 전용 모델이 높은 정확도를 보이지만, RGB‑Depth 융합 모델은 모달리티 간 정렬이 부실해 성능이 뒤처지는 경우가 많았다. DeMo‑Pose는 두 개의 주요 모듈로 구성된다. 첫 번째는 RGB 이미지에서 의미론적 특징을 추출하는 단일 단계 검출기이다. GhostNet을 백본으로 사용하고, PAN과 FCOS 스타일의 헤드를 통해 2D 키포인트(8개의 큐보이드 코너)와 상대 크기, 클래스 라벨을 동시에 예측한다. 이 단계는 기존 2D 검출 손실(GIoU, Quality Focal, Distributional Focal)과 3D 키포인트 회귀 손실을 결합해 학습한다. 훈련이 완료된 후에는 이 네트워크를 고정하고, 중간 단계의 피라미드 특성 맵을 “Monocular Feature Map”으로 활용한다. 두 번째는 깊이 기반 그래프 컨볼루션(3DGC) 백본이다. GPV‑Pose와 동일하게 깊이 이미지에서 객체 마스크를 추출하고, 백프로젝션 후 1028개의 포인트를 샘플링한다. 3DGC는 전역 및 로컬 포인트 특징을 학습해 회전·이동·크기 회귀 헤드에 전달한다. 여기서 핵심은 RGB와 깊이 특징을 정렬하는 “Feature Sampling Module”이다. 샘플링된 포인트의 3D 좌표를 이용해 해당 위치를 RGB 피처 맵에 양선형 보간하고, N×C₁ 형태의 RGB 피처와 N×C₂ 형태의 깊이 피처를 차원 일치시킨 뒤, 간단히 concatenate한다. 연구진은 MLP·Skip, Attention·Skip 등 복잡한 융합 방식도 실험했지만, 성능·연산량 측면에서 단순 연결이 가장 효율적임을 확인했다. 학습 목표에 새로운 Geometry‑aware 손실인 Mesh‑Point Loss(MPL)를 도입한다. 각 객체의 정밀 메쉬에서 Poisson disk 방식으로 V개의 정점을 샘플링하고, 네트워크가 예측한 정점과 L2 거리 손실을 최소화한다. 손실식은 L_MPL = (1/V) Σ_i || R·M_GT_i – M_pred_i ||² 로, 여기서 R은 정답 회전 행렬이다. 이 접근법은 회전 파라미터 대신 정점 자체를 감독함으로써 대칭 객체에 대한 불확실성을 감소시키고, 기존 PoseLoss가 갖는 회전 파라미터에 대한 민감도를 회피한다. 전체 손실은 L_total = L_base + λ_MPL·L_MPL 형태이며, λ_MPL은 2000으로 설정해 충분히 큰 기여도를 부여한다. MPL은 훈련 단계에서만 사용되므로 추론 시 추가 연산이 전혀 없다. 실험은 REAL275 데이터셋(6개 카테고리, 13개 씬)에서 수행되었다. 동일한 프로토콜에 따라 7개의 씬을 학습, 6개의 씬을 테스트하였다. 평가 지표는 3D IoU(25%, 50%, 75% 임계값)와 회전·이동 결합 정확도(5°·2 cm, 5°·5 cm, 10°·5 cm, 10°·10 cm)이며, FPS도 함께 보고한다. DeMo‑Pose는 3D IoU 75%에서 66.8%를 기록해 GPV‑Pose(64.1%)보다 3.2%p 상승했으며, 5°·5 cm 정확도에서는 47.7%로 11.1%p 개선했다. 또한 10°·5 cm와 10°·10 cm에서도 각각 8.1%·7.4%p의 상대적 향상을 보였다. FPS는 약 18 FPS(≈17.86)로 실시간에 근접한다. Ablation 연구에서는 MPL이 없는 버전과 비교해 모든 지표에서 일관된 향상이 확인되었으며, Fusion 전략별 비교에서는 Concatenation이 가장 높은 정확도와 최소 연산량을 제공한다는 결과를 얻었다. 정량적 결과 외에도 정성적 영상에서 GPV‑Pose는 특정 카테고리(예: laptop)에서 프레임 간 예측이 흔들리는 반면, DeMo‑Pose는 보다 안정적인 자세 추정을 보여준다. 결론적으로 DeMo‑Pose는 (1) RGB의 의미론적 정보를 깊이 기반 그래프 특징과 효율적으로 결합, (2) 메쉬 정점 기반의 Geometry‑aware 손실로 기하학적 일관성 강화, (3) 실시간 추론 가능성을 동시에 만족하는 설계로, 로봇 매니퓰레이션, 증강·가상현실, 자율 주행 등 실제 응용 분야에 바로 적용 가능한 수준의 성능을 제공한다. 향후 연구에서는 더 다양한 센서(예: 라이다·멀티스펙트럼)와의 확장, 그리고 대규모 셀프‑슈퍼비전 학습을 통한 라벨링 비용 절감 방안을 모색할 예정이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기