3D 인버스 그래픽을 활용한 장면 조작 네트워크
본 논문은 장면을 의미, 기하, 텍스처로 분리한 객체 단위의 3D‑aware 표현을 학습하는 3D‑SDN(3D Scene De‑rendering Network)을 제안한다. 인버스 그래픽 인코더가 이미지에서 의미 맵, 3D 메쉬·포즈, 텍스처 코드를 추출하고, 차별화 가능한 렌더러가 이를 다시 합성한다. 이를 통해 물체를 자유롭게 회전·이동하거나 텍스처만 교체하는 등 3D 수준의 편집이 가능하며, 기존 2D 기반 편집보다 정량·정성적으로 우수함…
저자: Shunyu Yao, Tzu Ming Harry Hsu, Jun-Yan Zhu
본 논문은 인간이 장면을 인식하고 3차원적으로 상상할 수 있는 능력을 기계에 부여하고자, 이미지에서 의미, 기하, 텍스처를 각각 분리한 객체‑단위의 구조화된 표현을 학습하는 3D‑SDN(3D Scene De‑rendering Network)을 제안한다. 기존 딥 제네레이티브 모델은 단일 객체에 국한되거나 3D 정보를 무시하는 경우가 많아, 물체를 자유롭게 이동·회전시키는 편집에 한계가 있었다. 반면 전통적인 그래픽 엔진은 구조화된 입력을 제공하지만, 이미지로부터 그래픽 코드를 역추출하는 것이 비현실적이었다. 3D‑SDN은 이러한 두 접근의 장점을 결합한다.
아키텍처는 인코더‑디코더 형태이며, 인코더는 세 개의 분기로 나뉜다. 첫 번째 의미 분기는 Dilated Residual Network(DRN)를 사용해 픽셀‑레벨 의미 맵을 생성한다. 두 번째 기하 분기는 Mask‑RCNN으로 객체를 검출하고, 각 객체에 대해 8개의 후보 CAD 메쉬 중 하나를 선택한다. 선택된 메쉬는 자유형 변형(Free‑Form Deformation, FFD) 파라미터와 스케일·회전·이동 파라미터와 결합되어 3D 형태를 정의한다. 회전은 도로 장면에 맞게 수평 회전 하나만 학습하도록 제한한다. 세 번째 텍스처 분기는 의미·인스턴스 맵을 결합해 인스턴스‑레벨 라벨을 만든 뒤, 각 인스턴스의 색·질감을 저차원 텍스처 코드(z)로 압축한다. 이때 기하 분기에서 얻은 포즈 맵과 노멀 맵을 텍스처 코드와 concat함으로써 텍스처와 기하를 명확히 분리한다.
디코더는 두 부분으로 구성된다. 차별화 가능한 형태 렌더러는 3D 메쉬와 FFD 파라미터, 카메라 파라미터를 입력으로 받아 실루엣, 인스턴스 맵, 노멀 맵을 2D 이미지 공간에 투사한다. 텍스처 렌더러는 인스턴스 레이블 맵과 텍스처 코드, 그리고 기하에서 제공된 포즈·노멀 정보를 입력으로 받아 최종 RGB 이미지를 합성한다. 텍스처 렌더러는 GAN 구조(G, D, E)로 학습되며, 조건부 GAN 손실, Feature‑Matching 손실, 퍼셉추얼 손실, 픽셀 재구성 손실을 동시에 최적화한다.
학습 목표는 크게 두 부분으로 나뉜다. 기하 분기는 3D 속성 예측 손실(L_pred)과 재투영 손실(L_reproj)로 구성된다. L_pred는 스케일, 회전(쿼터니언), 정규화 거리 τ, 2D 중심 오프셋 e에 대한 L2 손실을 포함한다. 재투영 손실은 차별화 가능한 렌더러가 만든 실루엣과 실제 객체 실루엣 간 L2 차이로 정의된다. 메쉬 선택은 비미분 가능하므로 다중 샘플 REINFORCE 방식을 적용해, 재투영 손실의 음수를 보상으로 사용한다. 텍스처 분기는 앞서 언급한 GAN 기반 손실을 사용한다. 전체 손실은 λ_FM·L_FM + λ_Recon·L_Recon + L_GAN 형태로 가중합한다.
실험에서는 Virtual KITTI와 Cityscapes 두 데이터셋을 사용하였다. 3D‑SDN은 객체를 3D 공간에서 자유롭게 이동·회전시키면서 텍스처를 유지하는 편집 작업에서 기존 2D 기반 편집 모델보다 PSNR·SSIM이 현저히 높았다. 특히 메쉬 선택과 FFD를 결합한 경우, 재투영 손실이 크게 감소하여 실루엣 재현 정확도가 크게 향상되었다. 내부 표현의 정확성도 별도 평가했으며, 스케일·포즈·거리 예측 오차가 낮고, 메쉬 선택 정확도가 80% 이상임을 보고했다.
한계점으로는 현재 회전 자유도가 1차원에 제한돼 복잡한 3D 회전이 어려우며, 메쉬 후보가 8개에 불과해 다양한 형태를 포괄하지 못한다는 점이다. 또한 차별화 가능한 렌더러가 실시간 성능을 제공하지만, 고해상도 텍스처와 복잡한 조명 모델을 포함하려면 추가적인 연산 비용이 필요하다. 향후 연구에서는 메쉬 후보 풀을 확대하고, 다중 자유도 회전 및 조명 추정을 통합함으로써 실내·자연 장면까지 일반화할 수 있는 방향을 제시한다.
결론적으로 3D‑SDN은 의미·기하·텍스처를 명확히 분리한 객체‑레벨 3D‑aware 표현을 학습하고, 차별화 가능한 렌더링을 통해 엔드‑투‑엔드로 이미지 재구성 및 3D 편집을 가능하게 함으로써, 기존 2D‑GAN 기반 이미지 편집 및 단일 객체 3D 재구성 방법을 뛰어넘는 새로운 패러다임을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기