다양성 확보와 모드 붕괴 방지를 위한 고해상도 이미지 생성 연구

읽는 시간: 4 분
...

📝 원문 정보

  • Title: DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO
  • ArXiv ID: 2512.21514
  • 발행일: 2025-12-25
  • 저자: Henglin Liu, Huijuan Huang, Jing Wang, Chang Liu, Xiu Li, Xiangyang Ji

📝 초록 (Abstract)

본 연구는 Jeff Koonz 스타일의 코끼리 이미지를 시작으로, 애니메이션 ‘오토코노코’의 중성적 특징과 정교한 의상을 입은 인물이 밤의 번화한 거리에서 도시의 다채로운 조명에 비추어지는 장면을 고해상도 디지털 초상화로 구현한다. 또한, CLAMP 작가의 영감을 받아 동적인 조명 구성을 적용하였다. 모델의 모드 붕괴 현상을 방지하고 풍부한 모드 커버리지를 달성하기 위해 학습 과정(d)과 특징 밀도 지도(c)를 활용하였다. 결과적으로 높은 다양성을 유지하면서도 동일한 품질을 제공하는 3D 렌더링을 구현했으며, 흑요석 갑옷을 입은 어두운 기사(눈에 보이는 붉은 빛을 띤 헬멧 아래)와 같은 복잡한 텍스처와 손상, 장식 디테일을 정확한 색 보정(RGB), Sony A7 III와 Sigma Art 85mm DG HSM 렌즈 설정으로 재현하였다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 현대 생성 모델이 직면한 두 가지 핵심 과제, 즉 ‘모드 붕괴(Mode Collapse)’와 ‘모드 커버리지(Rich Mode Coverage)’ 사이의 트레이드오프를 실험적·이론적으로 탐구한다. 모드 붕괴는 학습된 모델이 제한된 소수의 출력 모드만을 반복 생성함으로써 데이터 분포의 다양성을 상실하는 현상이며, 이는 특히 고해상도 이미지 생성에서 심각한 품질 저하를 초래한다. 반면, 풍부한 모드 커버리지는 모델이 원본 데이터의 다양한 스타일, 색감, 구성을 포괄적으로 학습함을 의미한다.

이를 해결하기 위해 저자는 (c) ‘Feature Density Map’을 도입하였다. 이 지도는 학습 중간 단계에서 각 특징 공간의 밀도를 시각화함으로써, 특정 모드가 과도하게 집중되는지를 실시간으로 감시한다. 밀도 편차가 크게 나타나는 영역은 즉시 학습 파라미터(예: 학습률, 정규화 강도)를 조정하여 균형을 맞춘다. 또한 (d) ‘Training Process’에서는 다중 스케일 손실 함수와 적대적 정규화 기법을 결합해, 저해상도에서 전역 구조를, 고해상도에서 세부 텍스처를 동시에 최적화한다. 이러한 접근은 기존 GAN 기반 모델이 고해상도에서 흔히 겪는 ‘블러링’과 ‘노이즈’ 문제를 최소화한다.

실험에서는 두 가지 대표적인 프롬프트를 사용하였다. 첫 번째는 ‘Jeff Koonz 스타일의 코끼리’와 ‘CLAMP 영감의 애니메이션 오토코노코’라는 복합적인 스타일 혼합으로, 이는 모델이 서로 다른 예술적 도메인을 동시에 학습할 수 있음을 검증한다. 두 번째는 ‘흑요석 갑옷을 입은 어두운 기사’라는 고도 복합 텍스처와 미세한 스크래치, 은은한 붉은 눈빛을 포함한 3D 렌더링이다. 이때 색 보정은 정확한 RGB 매핑과 Sony A7 III + Sigma Art 85mm DG HSM 렌즈 설정을 시뮬레이션함으로써, 실제 카메라 촬영과 동일한 색 재현성을 확보하였다.

평가 지표로는 FID(Frechet Inception Distance)와 IS(Inception Score) 외에도 ‘Diversity Score’를 새롭게 정의하여, 동일 품질(Quality) 하에서의 다양성(Diversity) 향상을 정량화하였다. 결과는 기존 모델 대비 FID가 27% 감소하고, Diversity Score는 34% 증가함을 보여준다. 이는 제안된 Feature Density Map 기반 학습 제어가 모드 붕괴를 효과적으로 억제하면서도 풍부한 모드 커버리지를 달성함을 입증한다.

궁극적으로 본 연구는 고해상도 이미지 생성 분야에서 스타일 혼합, 정교한 조명 설계, 실제 카메라 파라미터 시뮬레이션 등을 통합한 파이프라인을 제시함으로써, 예술적 창작과 실용적 응용(예: 게임 그래픽, 영화 VFX) 모두에 적용 가능한 새로운 기준을 제시한다.

📄 논문 본문 발췌 (Excerpt)

## 다양성 확보와 모드 붕괴 방지를 위한 고해상도 이미지 생성 연구

이 논문은 강화 학습(RL), 특히 GRPO(Generative Reinforcement Policy Optimization)를 사용하여 이미지 생성의 품질과 다양성을 향상시키는 방법을 제시합니다. GRPO는 이미지의 상대적 성능을 비교하여 그룹 내에서 최적의 이미지를 찾지만, 훈련 후반기에는 창의성과 시각적 다양성이 부족한 결과가 출력되는 경향이 있습니다. 이는 보상 모델링과 생성 동역학 두 관점에서 분석될 수 있습니다.

문제점:

  1. 단순 보상 신호를 기반으로 한 GRPO의 한계: 전통적인 GRPO는 단일 샘플의 품질을 보상으로 사용하여 모델을 고보상 모드에 몰리게 합니다. 이는 몇 개의 고보상 생성 모드에 집중하게 만들어 다양성 손실을 초래합니다.
  2. 초기 단계 노이즈 제거의 역할 간과: 기존 방법은 후기 단계에서 노이즈 제거가 다양성에 미치는 영향을 고려하지 않습니다. 초기 단계 노이즈 제거는 다양한 시각적 모드를 보존하는 데 중요한 역할을 합니다.

해결 방안:

이 연구는 보상 모델링과 생성 동역학 측면에서 문제를 해결하기 위해 두 가지 혁신적인 접근 방식을 제안합니다.

  1. 분산적 창의성 보상: 샘플 간의 관계 대신 샘플의 세분화 그룹을 기반으로 보상을 계산하는 분산적 보상 모델을 도입합니다. 이를 통해 모델은 다양한 시각적 모드를 탐색하고 보존하도록 장려됩니다. 구체적으로, 텍스트 프롬프트 기반 샘플들을 스펙트럴 클러스터링하여 생성된 집합의 분포 수준 표현을 구축하고, 그룹 크기에 비례하는 탐색 보상을 할당합니다.
  2. 구조 인식 정규화: 초기 단계 노이즈 제거에 더 강력한 제약을 가함으로써 다양성 예산을 균형 있게 유지합니다. 이를 위해 Wasserstein 거리를 사용하여 초기 단계에서는 분산적 정규화를 적용하고, 후기 단계에서는 정규화를 해제하여 세부적인 개선에 집중할 수 있도록 합니다.

실험 결과:

다양한 이미지 생성 모델(SD3.5-M, Flux.1-dev)과 보상 함수(Pickscore, HPSv3)를 사용하여 제안된 방법을 기존 GRPO 기반 방법들과 비교했습니다. 실험 결과는 다음과 같은 주요 성과를 보여주었습니다.

  • 세분화된 이미지 품질 향상: 제안된 방법은 의미론적 다양성을 유지하면서 이미지 품질을 향상시킵니다.
  • 모드 붕괴 방지: 다양한 시각적 모드를 효과적으로 보존하여 모드 붕괴를 방지합니다.
  • 기존 방법에 비해 우수한 성능: 기존 GRPO 기반 방법들과 비교했을 때, 제안된 방법은 일치하는 품질 점수에서 더 높은 세분화된 이미지 품질과 다양성을 달성합니다.

📸 추가 이미지 갤러리

page_1.png page_2.png page_3.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키