GAN이 놓친 것을 시각화한다
본 논문은 GAN의 모드 붕괴를 정량·정성적으로 분석하기 위해 두 단계의 프레임워크를 제시한다. 첫째, 이미지 분할 네트워크로 생성 이미지와 실제 이미지의 객체 분포를 비교해 누락된 클래스(모드)를 식별한다. 둘째, 식별된 클래스에 대해 “Layer Inversion” 기법으로 GAN의 중간 레이어를 역전시켜 실제 이미지와 재구성 이미지를 대비함으로써 개별 샘플 수준에서 놓친 객체를 시각화한다.
저자: David Bau, Jun-Yan Zhu, Jonas Wulff
본 논문은 최근 GAN 모델들이 보여주는 고품질 이미지 생성 능력에도 불구하고 여전히 존재하는 모드 붕괴(mode collapse) 문제를 구체적으로 탐구한다. 저자들은 두 단계의 분석 프레임워크를 제안한다. 첫 번째 단계는 **분포 수준 분석**이다. 이를 위해 Unified Perceptual Parsing 네트워크를 사용해 실제 이미지와 GAN이 생성한 이미지 모두를 336개의 의미론적 객체 클래스로 픽셀 단위 라벨링한다. 각 클래스별 평균 픽셀 수와 공분산을 구해 ‘Generated Image Segmentation Statistics’를 산출하고, 이를 실제 데이터와 비교한다. 차이가 큰 클래스는 GAN이 학습 과정에서 무시하거나 충분히 학습하지 못한 모드로 판단한다. 이러한 차이를 한 눈에 보기 위해 Fréchet Segmentation Distance(FSD)를 정의했으며, 이는 실제와 생성 이미지의 객체 분포 평균·공분산 차이를 정량화한다. 실험에서는 LSUN Bedroom 데이터셋에 대해 WGAN‑GP, Progressive GAN, StyleGAN을 비교했으며, StyleGAN이 가장 낮은 FSD(22.6)를 기록해 객체 분포를 가장 정확히 재현함을 보여준다. 반면 WGAN‑GP는 침대, 커튼, 쿠션 등 기본적인 가구까지 과소 생성하는 등 큰 편차를 보였다.
두 번째 단계는 **인스턴스 수준 분석**이다. 여기서는 분포 분석에서 식별된 누락 클래스가 실제 이미지에서 어떻게 나타나는지를 시각화한다. 전체 GAN을 역전하는 것은 비선형성 및 고차원성 때문에 실용적이지 않으므로, 저자들은 GAN을 두 부분으로 나눈다: 초기 레이어 집합(g₁…gₙ)과 후반부 레이어 집합 G_f. 후반부만을 역전하는 ‘Layer Inversion’ 방법을 고안했으며, 이를 위해 먼저 전체 GAN을 근사하는 인코더 E를 학습해 잠재 벡터 z₀=E(x)를 얻는다. 이후 z₀를 통해 초기 중간 표현 r₀=gₙ∘…∘g₁(z₀)를 계산하고, 작은 레이어별 변동 δ_i를 최적화해 r*를 찾는다. 최적화 목표는 이미지 픽셀 손실과 VGG 기반 퍼셉추얼 손실을 결합한 ℓ와 정규화 항 λ·∑‖δ_i‖²이다. 최종 재구성 이미지 x₀=G_f(r*)와 원본 이미지 x을 비교함으로써, GAN이 재현하지 못한 객체(예: 사람, 울타리, 자동차 등)의 존재와 위치를 명확히 드러낸다. 예시로 LSUN Church 데이터셋에서 Progressive GAN이 사람 형상을 전혀 그리지 못하고, 울타리의 평행선도 누락되는 현상이 시각화되었다.
관련 연구 섹션에서는 기존 GAN 평가 지표(FID, IS 등)가 전체 분포 차이는 측정하지만 구체적인 실패 원인을 설명하지 못한다는 점을 지적하고, 네트워크 시각화·역전 분야의 선행 작업들을 정리한다. 특히, 기존의 전체 GAN 역전 방법이 5‑layer DCGAN 정도에만 적용 가능했으나, 본 논문의 레이어‑와이즈 역전은 15‑layer Progressive GAN과 StyleGAN 같은 최신 대규모 모델에도 확장 가능함을 강조한다.
실험 결과는 세 가지 주요 관점을 제공한다. (1) **객체 분포 정량화** – FSD를 통해 모델별 객체 분포 일치 정도를 수치화하고, 스타일GAN이 가장 정확함을 확인한다. (2) **시각적 오류 사례** – Layer Inversion을 통해 실제 이미지에 존재하지만 생성 이미지에 전혀 나타나지 않는 객체들을 구체적으로 보여준다. (3) **모드 붕괴 특성** – 누락된 객체들은 단순히 저품질로 나타나는 것이 아니라, 아예 이미지에서 사라지는 현상이며, 이는 모델이 특정 복잡한 클래스 학습을 포기하고 있다는 의미로 해석된다.
결론적으로, 본 논문은 GAN의 “무엇을 못 만드는가”를 정량·정성적으로 드러내는 새로운 분석 도구를 제공한다. 이는 모델 설계 단계에서 모드 붕괴를 사전에 감지하고, 데이터셋·아키텍처·학습 전략을 조정하는 데 실질적인 가이드라인을 제공한다. 향후 연구에서는 보다 정교한 분할 네트워크와 역전 최적화 기법을 결합해 미세 디테일까지 복원하거나, 다른 도메인(예: 의료 영상, 텍스트‑이미지)에도 적용하는 방향이 제시된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기