드래그 앤 드롭으로 3D 객체 삽입, 자동 장면 복원 기술

본 논문은 사진 편집 작업에서 가장 큰 난관인 ‘장면의 물리적 요소’를 자동으로 복원하고, 이를 기반으로 3D 객체를 자연스럽게 삽입·조명·깊이‑오브‑필드 등을 실시간으로 조절할 수 있는 시스템을 제안한다. 시스템은 크게 세 단계로 구성된다. 1. **장면 분류 및 초기 파라미터 추정** 입력 이미지가 실내인지 실외인지를 GIST 특징과 k‑nearest‑neighbor 매칭을 통해 자동 판별한다. 실내·실외에 따라 각각 NYUv2와 Make3D 데이터베이스를 사용해 학습된 RGB‑D 샘플을 선택한다. 2. **단일 이미지 기반 장면 복원** - **깊이 복원**: 기존의 비파라메트릭 깊이 전이 방법(Karsch et al. 2012)을 기본으로 하면서, Lee et al. (2009)의 Manhattan World 가정에 기반한 소실점·선 검출을 통해 표면 법선 맵을 얻는다. 이 법선 정보를 이용해 깊이 최적화 목표에 세 가지 기하학적 정규화 항을 추가한다. 첫째, 주요 축에 대한 정렬을 강제하는 Manhattan 제약(E_m); 둘째, 각 평면이 하나의 주축에 평행하도록 하는 평면 방향 제약(E_o); 셋째, 3차원 공간에서의 연속성을 보장하는 3D 부드러움 제약(E_3s)이다. 최적화는 연속적인 에너지 최소화 방식으로 수행되며, 결과는 고해상도 메쉬와 텍스처(확산 알베도)로 변환된다. - **재질 추정**: 입력 이미지를 Color Retinex 알고리즘으로 분해해 확산 알베도와 쉐이딩을 구한다. 장면을 라미베르트 재질로 가정하고, 알베도 맵을 이후 조명 추정에 활용한다. 3. **조명 추정** 라이트 클래스ifier를 학습시켜 이미지 내 발광 픽셀을 탐지한다. 탐지된 픽셀은 초기 광원 후보가 되며, 이후 전역 조명 모델을 두 종류(다각형 면광원과 구형 이미지 기반 라이트)로 구성한다. 광원 위치·크기·강도·색상과 함께 카메라 응답 함수(감마 파라미터)까지 동시에 최적화한다. 최적화 목표는 렌더링된 조명(쉐이딩)과 실제 이미지 간의 차이를 최소화하는 재구성 손실이며, 그림자·가시성·반사까지 고려한다. 4. **편집 인터페이스** 복원된 메쉬, 카메라 파라미터, 조명 정보를 실시간 렌더러에 전달한다. 사용자는 3D 모델을 드래그 앤 드롭하면 자동으로 카메라 좌표계에 맞춰 위치·스케일·방향이 결정되고, 조명은 추정된 광원에 따라 실시간으로 재조명된다. 깊이‑오브‑필드 효과는 추정된 깊이 맵을 이용해 포스트 프로세싱 단계에서 가우시안 블러를 적용함으로써 구현된다. 5. **평가** 30여 장의 실내·실외 사진에 대해 사용자 스터디를 진행했으며, 피험자들은 편집된 이미지와 원본 사진을 구분하기 어려웠다. 특히 실내 장면에서 조명·그림자 일치도가 높게 평가되었으며, 실외에서는 확산 조명 가정이 한계로 작용한다는 점이 보고되었다. 정량적 평가에서는 기존 수작업 기반 시스템과 비교해 비슷한 실감도와 편집 속도를 보였다. 6. **제한점 및 향후 과제** - **Manhattan World 가정**: 복잡한 비직교 구조나 곡면이 많은 장면에서는 깊이 복원이 부정확할 수 있다. - **재질 모델**: 라미베르트 가정으로 인해 반사·투명 물체의 처리가 제한된다. - **조명 모델**: 현재는 면광원과 이미지 기반 라이트만을 사용하므로, 고강도 점광원·광원 간 복합 효과를 완벽히 재현하기 어렵다. - **오클루전 처리**: 삽입 객체가 기존 장면 요소 뒤에 있을 경우 자동 오클루전 처리가 지원되지 않는다. 본 논문은 단일 이미지에서 물리 기반 편집을 가능하게 하는 통합 파이프라인을 최초로 제시했으며, 데이터‑드리븐과 기하학적 제약을 결합한 깊이 복원, 그리고 보이지 않는 광원을 포함한 조명 추정이라는 두 핵심 기술이 실용적인 이미지 편집 도구로서의 가능성을 크게 확장한다.

드래그 앤 드롭으로 3D 객체 삽입, 자동 장면 복원 기술

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기