다중 왜곡 GAN을 이용한 다스타일 캐리커처 생성
** 본 논문은 사진을 입력으로 받아 다양한 텍스처와 기하학적 과장 스타일을 동시에 적용한 캐리커처를 자동으로 생성하는 MW‑GAN 프레임워크를 제안한다. 스타일 네트워크와 기하학 네트워크를 각각 구축하고, 두 네트워크를 ‘양방향(dual way)’ 구조로 연결해 잠재 코드와 이미지·랜드마크 공간을 상호 정합시킨다. 이미지와 랜드마크 양쪽에 신원 보존 손실을 도입해 정체성을 유지하면서도 풍부한 다양성을 구현한다. 실험 결과, 기존 방법보다 …
저자: Haodi Hou, Jing Huo, Jing Wu
**
본 논문은 “MW‑GAN: Multi‑Warping GAN for Caricature Generation with Multi‑Style Geometric Exaggeration”이라는 제목으로, 사진을 입력받아 다양한 텍스처와 기하학적 과장 스타일을 동시에 적용한 캐리커처를 자동으로 생성하는 새로운 프레임워크를 제안한다. 캐리커처는 얼굴의 특징을 과장하고 다양한 화풍으로 표현하는 예술 형태이며, 기존 자동 생성 방법은 텍스처 변환은 가능하지만 기하학적 변형의 다양성을 충분히 제공하지 못했다. 이를 해결하기 위해 저자들은 두 개의 주요 모듈, 즉 스타일 네트워크와 기하학 네트워크를 설계하고, 이를 ‘양방향(dual way)’ 구조로 연결하였다.
**1. 스타일 네트워크**
스타일 네트워크는 이미지 공간에서 텍스처와 색채를 변환한다. MUNIT에서 영감을 받아 콘텐츠와 스타일을 각각 별도의 인코더(E_c, E_s)와 디코더(G_s)로 분리한다. 콘텐츠 인코더는 사진과 캐리커처가 공유하는 얼굴 형태(랜드마크 기반)를 추출하고, 스타일 인코더는 각 도메인(사진, 캐리커처) 고유의 시각적 특성을 학습한다. 스타일 잠재 코드 z_s는 정규 가우시안 분포를 가정해 무작위 샘플링하거나 실제 캐리커처에서 추출할 수 있다. 이렇게 얻은 z_s와 콘텐츠 코드 z_c를 디코더에 입력하면, 원본 얼굴 형태를 유지하면서 다양한 화풍(스케치, 유화, 펜 등)으로 변환된 이미지 x₀_{p→c}가 생성된다.
**2. 기하학 네트워크**
기하학 네트워크는 랜드마크 좌표 l를 입력으로 받아 변위 맵 Δl을 출력한다. 변위 맵은 콘텐츠 코드 z_c와 별도의 ‘랜드마크 스타일 코드’ z_l을 결합해 생성한다. z_l 역시 가우시안에서 샘플링하거나 실제 캐리커처에서 추출한다. G_l(z_c, z_l) → Δl 로 계산된 변위 맵을 원본 이미지와 원본 랜드마크에 적용해, 최종적으로 텍스처가 변환된 이미지 x₀_{p→c}를 기하학적으로 왜곡한 최종 캐리커처 x_{p→c}를 만든다. 이 과정은 사진→캐리커처 흐름뿐 아니라 캐리커처→사진 흐름도 동시에 학습한다.
**3. 양방향 설계와 잠재 코드 사이클**
양방향 설계는 두 개의 오토인코더(사진용, 캐리커처용)를 서로 연결해 사이클 일관성 손실을 이미지 수준뿐 아니라 잠재 코드 수준에도 적용한다. 구체적으로, 사진→캐리커처 변환 후 다시 캐리커처→사진으로 복원할 때, 원본 스타일·랜드마크 코드와 복원된 코드가 일치하도록 L_cyc(z) 손실을 부여한다. 이는 잠재 코드가 실제 스타일·과장과 강하게 연결되게 하여, 무작위 샘플링 시 의미 있는 다양성을 보장한다.
**4. 신원 보존 손실**
캐리커처는 얼굴을 과장하지만 정체성을 유지해야 한다. 이를 위해 두 종류의 신원 보존 손실을 도입한다. (1) 이미지 공간에서는 사전 학습된 얼굴 인식 네트워크(FaceNet 등)를 이용해 원본 사진 x_p와 생성된 캐리커처 x_{p→c}의 임베딩 차이를 최소화한다. (2) 랜드마크 공간에서는 변형 전후 랜드마크 l_p와 l_{p→c} 사이의 구조적 차이를 최소화한다. 두 손실을 동시에 최적화함으로써, 과도한 기하학적 변형으로 인한 정체성 손실을 방지하면서도 충분한 과장을 허용한다.
**5. 손실 함수와 학습**
전체 목표 함수는 다음 요소들로 구성된다.
- Adversarial loss: 각각의 네트워크에 대응하는 판별기 D_s, D_g를 두어 사진·캐리커처 도메인 간 변환을 현실감 있게 만든다.
- Reconstruction loss: 오토인코더가 입력을 정확히 복원하도록 L1/L2 손실을 적용한다.
- Latent‑code cycle loss: 양방향 변환 후 잠재 코드가 일관되도록 L2 손실을 부여한다.
- Identity loss (이미지 + 랜드마크): 앞서 설명한 두 종류의 정체성 보존 손실.
- Style/warp regularization: 스타일 코드와 변위 맵의 크기를 제한해 과도한 변형을 억제한다.
이러한 복합 손실을 통해 네트워크는 텍스처와 기하학을 독립적으로 조절하면서도, 두 변환이 서로 충돌하지 않도록 학습된다.
**6. 실험 및 결과**
저자들은 CelebA‑Caricature와 자체 수집한 고해상도 캐리커처 데이터셋을 사용해 정량·정성 평가를 수행했다. FID(Frechet Inception Distance)와 LPIPS(Perceptual Similarity) 지표에서 기존 WarpGAN, CariGANs보다 현저히 낮은 값을 기록했으며, 사용자 설문에서도 “텍스처 다양성”, “과장 스타일 다양성”, “정체성 유지” 항목에서 높은 점수를 받았다. 특히 동일 사진에 대해 여러 스타일·과장 조합을 자유롭게 생성할 수 있는 점이 큰 차별점으로 강조되었다. Ablation study에서는 (a) 양방향 설계 제거, (b) 랜드마크 정체성 손실 제거, (c) 스타일 코드 정규화 제거 각각이 성능 저하를 초래함을 확인했다.
**7. 기여 정리**
- 첫 번째로, 기하학적 과장의 다양성을 명시적으로 모델링하고, 텍스처와 과장을 독립적인 잠재 코드로 제어하는 프레임워크를 제안했다.
- 두 번째로, 양방향 구조와 잠재 코드 사이클 손실을 도입해 스타일·과장 코드가 의미 있게 학습되도록 했다.
- 세 번째로, 이미지와 랜드마크 양쪽에 신원 보존 손실을 적용해 정체성 유지와 과장 사이의 균형을 크게 향상시켰다.
- 마지막으로, 다양한 정량·정성 실험을 통해 기존 최첨단 방법보다 우수한 품질과 다양성을 입증했다.
이러한 연구는 자동 캐리커처 생성뿐 아니라, 스타일·형태 변환이 동시에 요구되는 다른 도메인(예: 의상 디자인, 3D 모델링)에도 적용 가능성을 시사한다.
**
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기