단일 깊이 이미지 기반 다중분기 3D 의미 완성 모델 ForkNet

본 논문은 단일 깊이 이미지로부터 3차원 씬의 완전한 기하학적 구조와 의미 라벨을 동시에 복원하는 새로운 딥러닝 프레임워크인 ForkNet을 제안한다. 기존 연구들은 주로 하나의 인코더‑디코더 파이프라인에 의존하거나, 기하학적 완성과 의미 완성을 별도 모델로 학습하는 방식을 사용해 왔다. 이러한 접근법은 (i) 기하학적 디테일을 충분히 재현하지 못하고, (ii) 실세계 데이터의 라벨링 부족으로 일반화에 한계를 보이는 문제가 있었다. ForkNet은 이러한 문제를 해결하기 위해 네 가지 핵심 설계를 도입한다. 첫 번째는 **단일 인코더와 다중 브랜치 디코더** 구조이다. 입력 깊이 이미지에서 얻은 부호 거리 함수(SDF) 볼륨 x를 3D 컨볼루션 인코더 E가 점진적으로 다운샘플링해 잠재 벡터 z(16×5×3×5)로 압축한다. 이 z는 세 개의 디코더 Ĝₓ, G_g, G_s에 동시에 전달된다. Ĝₓ는 x와 동일한 형태의 SDF ˆx를 복원하는 자동인코더 역할을 수행하고, G_g는 관측되지 않은 영역을 채워 넣은 기하학적 완성 볼륨 g를, G_s는 각 voxel에 대한 의미 라벨을 원-핫 형태로 출력하는 의미 완성 볼륨 s를 생성한다. 두 번째는 **브랜치 간 레이어‑레벨 피처 연결**이다. Ĝₓ의 중간 피처를 G_s의 대응 레이어에 concatenate함으로써, 부분 관측된 기하학 정보가 의미 라벨 예측에 직접적인 컨텍스트로 제공된다. 이는 의미 라벨이 기하학적 구조와 일관되도록 강제하고, 특히 라벨이 부정확하거나 누락된 경우에도 기하학적 신호를 활용해 보정한다. 세 번째는 **다중 판별기 기반 적대 학습**이다. Dₓ는 생성된 SDF ˆx가 실제 SDF와 구분되지 않도록 학습하고, D_s는 의미 볼륨 s가 실제 라벨 분포와 동일한 통계적 특성을 갖도록 압박한다. 두 판별기의 손실은 각각 L_adv^x, L_adv^s 형태로 전체 손실에 포함되며, 재구성 손실(L₁/L₂), 의미 교차 엔트로피 손실, 그리고 피처 일관성 손실과 함께 최적화된다. 이를 통해 기하학적 디테일과 의미 정확도가 동시에 향상된다. 네 번째는 **잠재 공간 샘플링을 통한 데이터 증강**이다. 학습이 진행되는 동안 z를 직접 샘플링해 (ˆx, s) 쌍을 생성하고, 이를 기존 학습 데이터에 추가한다. 특히 NYU와 같은 실세계 깊이 데이터는 라벨링 비용이 높아 데이터 양이 제한적이므로, 이 자동 생성 샘플은 모델의 일반화 능력을 크게 높인다. 샘플링 과정은 기존 VAE‑GAN 방식과 유사하지만, ForkNet은 이미 학습된 인코더‑디코더를 재활용하므로 별도 생성 모델을 훈련할 필요가 없다. 실험에서는 SUNCG(합성)와 NYU(실제) 데이터셋을 이용해 두 가지 주요 태스크—시맨틱 3D 씬 완성 및 3D 객체 완성—를 평가했다. 평가 지표는 기하학적 IoU와 의미 mIoU이며, ForkNet은 모든 베이스라인을 능가했다. 특히 NYU 테스트에서, 강한 차폐와 센서 노이즈가 존재함에도 불구하고, 기존 최첨단 모델 대비 IoU 4~5%p, mIoU 3~4%p 상승을 기록했다. 이는 (i) 기하학‑의미 피처 연결이 라벨 오류를 보정하고, (ii) 다중 판별기가 고품질 디테일을 유지하며, (iii) 데이터 증강이 실세계 일반화에 기여했기 때문이다. 추가적인 정량 분석에서는 각 디코더별 손실 기여도를 ablation study로 검증하였다. Ĝₓ와 G_g를 독립적으로 학습할 경우 의미 정확도가 크게 떨어지는 반면, Ĝₓ → G_s 연결을 포함하면 의미 mIoU가 평균 2.8%p 상승한다. 또한 판별기 없이 학습한 모델은 표면이 부드럽고 라벨이 흐릿해지는 경향을 보였으며, 판별기를 도입하면 경계가 선명해지고 작은 객체까지 정확히 복원된다. 결론적으로 ForkNet은 (1) 파라미터 효율성을 높이는 단일 인코더‑다중 디코더 설계, (2) 기하학‑의미 상호 보완을 위한 피처 연결, (3) GAN 기반 현실감 향상, (4) 잠재 공간 샘플링을 통한 데이터 증강이라는 네 가지 혁신을 결합해, 제한된 실세계 데이터 환경에서도 강인하고 정밀한 3D 의미 완성을 실현한다. 향후 연구에서는 텍스처와 색상 정보를 통합한 멀티모달 확장, 그리고 실시간 로봇 응용을 위한 경량화 모델 설계가 기대된다.

단일 깊이 이미지 기반 다중분기 3D 의미 완성 모델 ForkNet

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기