주제 중심 이미지 생성의 진화: Scone으로 구현되는 통합 이해 생성 방법
📝 원문 정보
- Title: Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling
- ArXiv ID: 2512.12675
- 발행일: 2025-12-14
- 저자: Yuran Wang, Bohan Zeng, Chengzhuo Tong, Wenxuan Liu, Yang Shi, Xiaochen Ma, Hao Liang, Yuanxing Zhang, Wentao Zhang
📝 초록 (Abstract)
주제 중심 이미지 생성은 단일 주제에서 다중 주제 구성으로 발전했지만, 입력이 여러 후보를 포함할 때 올바른 주제를 식별하고 생성하는 능력인 구분력을 무시해 왔다. 이 한계는 복잡하고 실제적인 시각적 환경에서의 효과성을 제한한다. 우리는 Scone을 제안하는데, 이는 구성과 구분을 통합하는 단일 이해-생성 방법이다. Scone은 이해 전문가를 의미의 다리로 활용하여 의미 정보를 전달하고 생성 전문가에게 주제 정체성을 유지하면서 간섭을 최소화하도록 안내한다. 두 단계 훈련 방식으로 먼저 구성 학습을 하고, 의미 대응과 주의 기반 마스킹을 통해 구분력을 강화한다. 또한 다양한 시나리오에서 구성과 구분을 평가하기 위한 SconeEval 벤치마크를 소개한다. 실험은 두 개의 벤치마크에서 구성 및 구분 작업에서 Scone이 기존 오픈소스 모델보다 우수함을 보여준다.💡 논문 핵심 해설 (Deep Analysis)

Scone의 핵심 아이디어는 이해 전문가와 생성 전문가 사이에 의미적인 다리를 만드는 것이다. 이 다리는 입력된 여러 주제들 중에서 올바른 주제를 식별하고 그 정체성을 유지하는 데 필수적이다. 두 단계 훈련 방식을 통해 Scone은 초기에는 구성 능력을 학습한 후, 구분력 강화를 위해 의미 대응과 주의 기반 마스킹 기법을 활용한다.
또한 이 논문에서는 SconeEval이라는 새로운 벤치마크를 소개하며, 다양한 시나리오에서 모델의 성능을 평가할 수 있는 기준을 제공한다. 실험 결과는 Scone이 기존 오픈소스 모델들보다 우수한 성능을 보여주며, 특히 구성과 구분이라는 두 가지 핵심 요소에서 뛰어난 결과를 내고 있다.
📄 논문 본문 발췌 (Excerpt)
📸 추가 이미지 갤러리

Reference
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.