포인트클라우드 기반 3D 생성과 구조 인페인팅

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Points-to-3D는 기존 확산 기반 3D 생성 모델인 TRELLIS에 점군(포인트클라우드) 정보를 직접 주입하여, 관측된 부분은 그대로 보존하고 보이지 않는 영역을 구조적으로 보완하는 프레임워크이다. 점군을 voxel‑화해 구조 라티스에 초기값으로 사용하고, 마스크‑인식 인페인팅 흐름을 통해 전역적인 형태를 완성한 뒤 경계 정제 단계로 디테일을 다듬는다. 실험 결과, 객체와 장면 수준 모두에서 렌더링 품질과 기하학적 정확도가 기존 텍스트·이미지 조건 모델을 크게 앞선다.

상세 분석

본 논문은 3D 생성 분야에서 “조건”이라는 관점이 주로 2D 이미지나 텍스트에 국한되어 왔던 한계를 지적하고, 실제 센서(LiDAR 등) 혹은 단일 이미지 기반 예측기(VGGT)에서 얻을 수 있는 점군을 직접적인 구조 제약으로 활용한다는 점에서 혁신적이다. 핵심 아이디어는 TRELLIS의 두 단계(Structure Generation → Structured Latent Generation) 구조를 그대로 유지하면서, 첫 번째 단계인 Sparse Structure (SS) 라티스의 초기값을 순수 가우시안 노이즈가 아니라 점군을 voxel‑화한 결과로 교체하는 것이다.

점군 → Voxel → SS 라티스 변환
- 입력 점군 P를 3D occupancy grid M′(N×N×N) 로 voxel화하고, TRELLIS의 구조 VAE인 E_s 로 인코딩해 q_vis 를 얻는다.
- 이때 관측된 영역을 나타내는 마스크 m_s 를 동일 해상도로 다운샘플링하여, q_vis 에는 m_s 를 곱해 고정하고 나머지 영역은 가우시안 노이즈 ϵ_s 로 채운다. 즉, q_comb = m_s⊙q_vis + (1−m_s)⊙ϵ_s 로 “관측‑노이즈 혼합 라티스”를 만든다.
마스크 인식 인페인팅 흐름(G_inp)
- 기존 TRELLIS의 구조 생성 흐름 G_s 를 기반으로, 입력 채널을 (c_s + c_m) 로 확장하고 마스크 m_s 를 채널 차원에 concat한다.
- Conditional Flow Matching (CFM) 손실을 사용해, q_comb → q_pred 로 변환하는 과정을 학습한다. 여기서 q_gt 는 전체 3D 모델을 VAE에 넣어 얻은 완전 SS 라티스이다.
- CFM은 시간‑조건 t 와 노이즈 스케줄을 고려해, 흐름 역전파 과정에서 목표 라티스와 현재 라티스 차이를 최소화한다.
학습 데이터 구축
- 실제 점군을 얻기 어려운 점을 보완하기 위해, 각 3D 자산에 대해 다중 뷰(depth map) 를 렌더링하고, 카메라 변환 행렬을 이용해 세계 좌표의 포인트를 이미지 좌표로 투사한다.
- 투사된 깊이가 렌더링된 depth와 일정 오차 이하이면 해당 포인트를 “관측 가능”으로 판단해 마스크 O_t 를 만든다. 이렇게 얻은 P_t 를 voxel화해 학습 입력 (q_comb, m_s, I_t) 과 정답 q_gt 를 생성한다.
- 이 과정은 점군이 실제 센서 노이즈와 유사한 불완전성을 포함하도록 설계돼, 모델이 다양한 가시성 패턴에 강인하도록 만든다.
두 단계 샘플링 전략
- 구조 인페인팅 단계: s 단계(예: 200) 동안 q_comb 을 점진적으로 q̂ 로 변환해 전역적인 형태를 완성한다. 이때 마스크 영역은 고정된 채 유지된다.
- 경계 정제 단계: 남은 (t−s) 단계(예: 100)에서는 미세한 경계와 세부 구조를 다듬는다. 이 단계는 전체 라티스를 대상으로 하지만, 이미 확보된 큰 구조는 크게 변하지 않도록 설계돼, 관측된 점군과의 일관성을 유지한다.
성능 및 한계
- 객체 데이터셋(Toys4K)와 실내·실외 장면 데이터셋(3D‑FRONT)에서 PSNR, SSIM, Chamfer Distance 등 정량 지표와 인간 평가 모두에서 기존 TRELLIS, DreamFusion, Magic3D 등 텍스트·이미지 기반 모델을 크게 앞선다. 특히 점군이 제공하는 영역에서는 거의 완벽한 정렬을 보이며, 비가시 영역에서도 자연스러운 보완이 이루어진다.
- 한계점으로는 점군의 품질에 크게 의존한다는 점이다. VGGT와 같은 추정기에서 발생하는 시스템적 오류가 그대로 라티스 초기값에 반영될 경우, 인페인팅 단계에서 오류가 전파될 가능성이 있다. 또한 현재는 occupancy 기반 라티스에 국한돼, 색상·법선 등 추가적인 점군 속성을 직접 활용하지 못한다는 점도 개선 여지다.

이러한 설계는 3D 생성 모델에 “hard constraint” 형태의 외부 기하 정보를 자연스럽게 통합하는 새로운 패러다임을 제시한다. 향후 점군 외에도 mesh, depth map 등 다양한 3D 프라이어를 동일 라티스에 매핑해 멀티모달 조건 생성으로 확장할 수 있을 것으로 기대된다.

포인트클라우드 기반 3D 생성과 구조 인페인팅

초록

상세 분석

댓글 및 학술 토론

의견 남기기