단일 사진으로 BRDF 파라미터를 추정하는 조건부 적대 신경망
본 논문은 모바일 폰 플래시 사진 한 장만으로 Disney BRDF의 확산색, 금속성, 거칠기, 법선 등을 픽셀 단위로 예측하는 조건부 GAN(Conditional GAN) 기반 네트워크를 제안한다. 다중 스케일 판별기와 퍼셉추얼·렌더링·파라미터 손실을 결합해 전역적인 스타일 일관성을 확보하고, 기존 방법보다 4배 높은 해상도의 SVBRDF 맵을 생성한다.
저자: Mark Boss, Hendrik P.A. Lensch
**1. 서론**
컴퓨터 그래픽스에서 사실적인 렌더링을 위해서는 물체 표면의 반사 특성을 정확히 모델링하는 것이 핵심이다. 기존의 고품질 재질 캡처는 포토그래메트리, BTF 측정기 등 고가의 장비와 복잡한 절차가 필요해 실무에서 적용하기 어렵다. 따라서 저비용 모바일 기기로 단일 사진만을 이용해 SVBRDF(Spatially‑Varying BRDF) 파라미터를 자동으로 복원하는 방법이 요구된다. 본 논문은 이러한 요구를 충족시키기 위해, 플래시가 켜진 스마트폰 사진을 입력으로 받아 Disney BRDF(확산색, 금속성, 거칠기, 법선) 8개 파라미터를 픽셀 단위로 예측하는 딥러닝 기반 시스템을 제안한다.
**2. 관련 연구**
기존 접근법은 크게 최적화 기반과 딥러닝 기반으로 나뉜다. 최적화 기반(Aittala 등)은 이미지 타일 간의 정합성을 이용해 저해상도 SVBRDF를 복원하지만, 연산 비용이 크고 세부 디테일이 부족하다. 딥러닝 기반(Li et al., Deschaintre et al.)은 CNN을 활용해 단일 이미지에서 파라미터를 추정하고, 미분 가능한 렌더러를 이용한 렌더링 손실을 도입했지만, 여전히 스펙큘러 하이라이트와 주변광에 의해 발생하는 아티팩트를 완전히 제거하지 못했다. 또한, 기존 방법들은 2~3배 해상도 제한으로 세밀한 텍스처 재현에 한계가 있었다.
**3. 재질 표현**
본 연구는 게임 엔진에서 널리 쓰이는 Cook‑Torrance 모델에 Disney BRDF의 금속성 파라미터를 결합한 형태를 사용한다. 확산 색은 기본 색(b)과 금속성(m)으로부터 d = b·(1‑m) 로 계산되고, 스펙큘러 색은 0.04·(1‑m) + b·m 으로 정의된다. 이렇게 하면 비금속 재질은 고정된 4% 반사율을 갖고, 금속 재질은 기본 색에 따라 스펙큘러 색이 변한다. 파라미터는 8채널(확산색 3, 법선 3, 거칠기 1, 금속성 1)으로 구성된다.
**4. 네트워크 구조 및 손실 설계**
- **생성기**: Johnson et al.의 Residual Block 기반 네트워크를 채택하고, U‑Net 스타일의 스킵 연결을 최소화해 고해상도 출력의 안정성을 높였다.
- **판별기**: 두 개의 PatchGAN 판별기(D₁, D₂)를 사용한다. D₁은 전체 해상도 입력을 받아 미세 디테일을 감시하고, D₂는 절반 해상도 입력을 받아 전역적인 스타일 일관성을 평가한다. 두 판별기는 입력 사진 I와 예측 파라미터 P를 조건으로 받아 진위 여부를 판단한다.
- **손실 함수**:
1. **파라미터 손실(Lₚ)** – L1 손실을 사용해 각 파라미터 맵을 직접 비교하고, 법선은 각도 차이(acos(dot)/π)로 측정한다.
2. **렌더링 손실(Lᵣ)** – 미분 가능한 렌더러를 통해 10개의 무작위 조명·시점 조건에서 재렌더링하고, 로그 변환 후 L1 손실을 적용한다. 이는 파라미터가 다양한 조명 상황에서도 일관된 시각적 결과를 내도록 강제한다.
3. **적대 손실(Lₐ)** – LSGAN 형태로, D가 실제 샘플을 1, 가짜 샘플을 0에 가깝게 예측하도록 학습한다.
4. **특징 손실(L_f)** – 판별기의 중간 특징 맵을 L2 거리로 최소화해 학습 안정성을 보강한다.
전체 손실은 Lₜ = λ₁·Lₚ + λ₂·Lᵣ + λ₃·Lₐ + λ₄·L_f 로 가중치가 조정된다.
**5. 데이터셋 구축**
절차적 재질 생성 파이프라인을 이용해 40,544개의 재질을 만들고, 각각을 세 가지 서로 다른 HDR 환경광(실내, 실외, 스튜디오) 아래 렌더링했다. 각 렌더링은 플래시 광원과 환경광이 혼합된 형태이며, 최종 학습 샘플은 플래시가 주된 광원으로 작용하도록 설계되었다. 이렇게 만든 대규모 데이터셋은 네트워크가 환경광을 자동으로 보정하도록 학습시키는 데 핵심 역할을 한다.
**6. 실험 및 결과**
- **정량 평가**: MAE와 SSIM을 기준으로 기존 방법(Li et al. 2018a, Deschaintre et al. 2018) 대비 12~18% 정도 개선을 기록했다. 특히 거칠기와 금속성 맵에서 스펙큘러 하이라이트에 의한 오류가 크게 감소했다.
- **시각적 평가**: 4배 해상도(1024×1024) 텍스처를 복원했으며, 미세한 표면 거칠기와 금속성 경계가 선명하게 표현되었다. 생성된 파라미터를 Unity와 Unreal 엔진에 적용했을 때, 인간이 직접 만든 재질과 거의 구분되지 않을 정도의 시각적 품질을 보였다.
- **아베리징 테스트**: 플래시 외에 주변광이 강한 상황에서도 네트워크가 환경광을 억제하고 플래시 중심의 조명을 복원하는 능력을 확인했다.
**7. 논의 및 한계**
본 방법은 플래시가 없는 저조도 사진이나, 곡면·복합 재질에 대해서는 아직 일반화가 부족하다. 또한, 현재는 2D 평면 재질에 한정되므로 3D 형태와 동시에 추정하는 멀티태스크 확장이 필요하다. 학습 데이터가 절차적으로 생성된 점은 실제 촬영 환경과의 도메인 차이를 야기할 수 있으나, 실험 결과는 충분히 견고함을 보여준다.
**8. 결론 및 향후 연구**
조건부 GAN과 다중 스케일 판별기를 결합한 본 접근법은 단일 플래시 사진으로부터 고해상도 SVBRDF를 정확히 복원한다. 손실 함수 설계가 전역 스타일 일관성과 로컬 디테일을 동시에 만족시켜, 기존 방법 대비 눈에 띄는 품질 향상을 달성했다. 향후 연구에서는 비플래시 조명, 곡면 재질, 그리고 실시간 모바일 추론을 위한 경량화 모델 개발을 목표로 할 예정이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기