단일 이미지 깊이 추정 새로운 인코더 디코더 구조

본 논문은 단일 RGB 이미지로부터 고해상도 깊이 맵을 예측하는 문제에 대해, 기존의 인코더‑디코더 구조를 한 단계 발전시킨 모델을 제안한다. 인코더로는 Inception‑ResNet‑v2(IRv2)를 채택했으며, 이는 Inception 모듈의 멀티스케일 특성과 Residual 연결의 학습 안정성을 동시에 제공한다. 기존 깊이 추정 연구에서 주로 사용된 ResNet‑50, DenseNet 등보다 더 깊고 복잡한 특징을 추출할 수 있어, 복잡한 실내·실외 장면에서도 구조적 정보를 효과적으로 포착한다. 디코더는 단계별 업샘플링과 인코더의 스킵 연결을 활용해 다중 스케일 정보를 복원한다. 각 디코더 단계에서는 3×3 컨볼루션, 배치 정규화, ReLU 활성화를 적용해 공간 해상도를 점진적으로 높이며, 최종 출력은 sigmoid 함수를 통해 정규화된 깊이 맵을 생성한다. 손실 함수는 세 가지 구성 요소의 가중합으로 설계되었다. 첫 번째는 절대 깊이 차이를 최소화하는 L1 기반 깊이 손실이며, 두 번째는 깊이 경계의 미세한 변화를 강조하는 그래디언트 에지 손실이다. 세 번째는 구조적 유사성을 보존하는 SSIM 손실이며, 세 손실의 가중치를 각각 0.6, 0.2, 0.2로 설정해 최적의 성능을 얻었다. 이러한 복합 손실은 깊이 정확도와 시각적 일관성을 동시에 향상시킨다. 실험은 NYU Depth V2, KITTI, Cityscapes 세 데이터셋에서 수행되었다. NYU Depth V2에서는 Absolute Relative Error(ARE) 0.064, Root Mean Square Error(RMSE) 0.228, δ<1.25 정확도 89.3%를 기록해 기존 최첨단 모델들을 앞섰다. KITTI에서는 0.019 초의 추론 시간을 달성했으며, 이는 최근 Vision Transformer 기반 모델보다 약 2배 빠른 속도이다. Cityscapes에 대한 정량적 결과는 표에 제시되었으며, 전반적으로 기존 방법 대비 유사하거나 약간 우수한 성능을 보였다. 관련 연구에서는 전통적인 스테레오·구조‑From‑Motion 방법, SIFT·CRF 기반 전통적 접근, 그리고 CNN·GAN·Transformer 기반 최신 방법들을 폭넓게 검토하였다. 특히, 다중 스케일 특징 추출과 어텐션 메커니즘을 결합한 최근 모델들과 비교했을 때, 제안 모델은 인코더 단계에서부터 풍부한 멀티스케일 정보를 제공함으로써 디코더가 보다 정교한 깊이 맵을 복원하도록 돕는다. 한계점으로는 IRv2 인코더의 파라미터 수가 많아 메모리 요구량이 높고, 저사양 디바이스에서의 실행 가능성이 검증되지 않은 점이 있다. 또한 복합 손실의 가중치 선택이 경험적이며, 체계적인 하이퍼파라미터 탐색이 부족하다. Cityscapes와 같은 야외 데이터셋에 대한 시각적 비교가 부족해 일반화 능력을 완전히 평가하기 어렵다. 추론 속도와 메모리 사용량에 대한 상세 하드웨어 사양이 논문에 명시되지 않아 재현성이 떨어진다. 향후 연구 방향으로는 경량화된 백본(예: MobileNet‑V3) 적용, 자동화된 손실 가중치 최적화(예: 베이지안 최적화), 그리고 다양한 도메인(실외, 수중, 저조도)에서의 교차 검증을 제시한다면, 실시간 로봇, 증강현실, 자율주행 등 실제 응용 분야에 바로 적용 가능한 수준으로 모델을 한층 강화할 수 있을 것이다.

단일 이미지 깊이 추정 새로운 인코더 디코더 구조

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기