노이즈 없는 확산 모델의 기하학적 해석

본 논문은 시간에 의존하지 않는 자율(노이즈‑불감) 생성 모델이 최적화하는 “마진 에너지”를 정의하고, 이 에너지의 무한히 깊은 잠재우물(singular well)에도 불구하고 모델이 안정적으로 샘플링할 수 있는 이유를 Riemannian gradient flow와 지역적인 등각(metric) 보정으로 설명한다. 또한 노이즈 예측 파라미터화가 불안정한 “Jensen Gap”을 초래하는 반면, 속도 기반 파라미터화는 유계 이득(bounded‑ga…

저자: Mojtaba Sahraee-Ardakan, Mauricio Delbracio, Peyman Milanfar

본 논문은 최근 주목받고 있는 자율(노이즈‑불감) 생성 모델, 특히 Equilibrium Matching(EqM)과 블라인드 디퓨전(blind diffusion) 모델이 어떻게 시간‑조건화된 전통적인 확산 모델과 근본적으로 다른 메커니즘으로 작동하는지를 이론적으로 규명한다. 1. **배경 및 문제 제기** 전통적인 DDPM, Score‑Based Model, EDM 등은 모두 시간 t에 조건화된 스코어나 속도 필드를 학습한다. 이들은 각 t마다 다른 스케일의 잡음에 맞춰 샘플을 이동시키는 것이 핵심이다. 반면, 자율 모델은 하나의 고정된 벡터 필드 fθ(u)만을 학습한다. 여기서 가장 큰 의문은 “다양한 잡음 레벨을 모두 커버해야 하는데, 단일 필드가 어떻게 이를 수행할 수 있는가?”이며, 특히 데이터 매니폴드 근처에서 그래디언트가 발산하는 문제(energy singularity)가 존재한다는 점이다. 2. **마진 에너지 정의** 저자는 주변 데이터 분포 p(u)=∫p(u|t)p(t)dt 를 정의하고, 그 부정로그를 마진 에너지 Eₘₐᵣg(u)=−log p(u) 로 설정한다. 이 에너지는 t를 무작위 변수로 취급했을 때 모델이 실제로 최적화하려는 목표임을 보인다. 3. **마진 에너지 그래디언트와 특이점** ∇Eₘₐᵣg(u)=E_{t|u}

노이즈 없는 확산 모델의 기하학적 해석

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기