확산 모델의 일반화는 기하학을 먼저 배우고 기억을 뒤따른다

본 논문은 최근 확산 및 스코어 기반 생성 모델이 훈련 초기에 혹은 모델 용량이 제한된 상황에서도 실제 데이터와는 다른 새로운 고품질 샘플을 생성한다는 현상을 이론적으로 설명한다. 기존 이론은 확산 모델을 “밀도 추정” 문제로 보고, 스코어 정확도가 높아질수록 샘플링 분포가 모집단 분포 μ_data 에 가까워진다고 주장한다. 그러나 실험에서는 스코어가 거칠게(코스) 학습된 경우에도 새로운 샘플이 생성되는 것이 관찰된다. 이를 해명하기 위해 저자들은 “매니폴드 가설”(데이터가 저차원 매니폴드 M★ ⊂ ℝ^D 위에 집중) 을 채택한다. 매니폴드 M★ 가 C^β (β ≥ 2) 로 매끄럽고, reach(M★) 가 양수이며, 데이터 분포 μ_data 가 M★ 위에 절대 연속이고 밀도 p(y) 가 유계라고 가정한다. 이때 전체 밀도 추정은 차원 k 에 대한 최소화된 위험률 \tilde O(N^{-1/k}) 를 필요로 하지만, 저정밀 스코어는 μ_data 의 미세한 밀도 구조를 무시하고 오직 M★ 의 기하학만을 포착한다는 점을 핵심 아이디어로 삼는다. 논문은 먼저 Gaussian smoothing 단계에서 μ_t = μ_data * N(0, tI) 를 정의하고, 이때 KL( μ_t || μ_emp * N(0, tI) ) = \tilde O(N^{-1}) 라는 파라메트릭 수준의 수렴을 보인다(정리 F.1). 이는 t 가 고정된 경우, 경험분포와 Gaussian‑smoothed 경험분포 사이의 차이가 매우 작아짐을 의미한다. 그 다음, “프로젝션 맵” Proj_M 을 도입한다. Proj_M 은 매니폴드의 최근접점 투영이며, tubular neighborhood 안에서 잘 정의된다. 저정밀 스코어와 ODE 기반 샘플링을 결합하면, 학습된 스코어는 실제 Proj_M 에 대한 근사인 Proj_c 를 구현한다. 정리 3·4 에서는 이 근사에 대한 수렴률을 제시한다: Hausdorff 거리 d_H(c_M, M★) = \tilde O(N^{-β/k}), 그리고 ∥Proj_M - Proj_c∥_∞ = \tilde O(N^{-β/(2k)}). 이러한 기하학적 추정이 가능해지면, 매니폴드 커버리지를 정의한다. δ‑커버리지란 모든 y ∈ M★ 에 대해 μ(B_M★^δ(y)) ≥ c·μ_data(B_M★^δ(y)) 를 만족하는 것을 의미한다. 정리 7 은 위에서 얻은 프로젝션 정확도를 이용해 δ = \tilde O(N^{-β/(4k)}) 규모의 구간에서도 δ‑커버리지를 달성함을 증명한다. 즉, 샘플링된 분포는 매니폴드 전체를 미세하게 커버하면서도 개별 훈련 샘플과는 거리를 유지한다. 실험 부분에서는 세 가지 훈련 단계(초기, 중간, 후기)를 시각화한다. 초기 단계에서 매니폴드 오류가 급격히 감소하고, 스코어와 투영 방향 사이의 정렬도(⟨Proj_M, s_θ⟩)가 빠르게 상승한다. 반면 기억률(데이터 복제)은 후기 단계에서만 눈에 띄게 증가한다. 이는 “일반화 윈도우”가 존재함을 시각적으로 보여준다. 문헌 검토에서는 기존 최소극대(최소극대) 매니폴드 추정 및 확산 이론을 정리하고, 이들이 현재 문제(코스 스코어가 일반화를 가능하게 하는 메커니즘)를 다루지 못함을 지적한다. 특히, 기존 연구는 전체 밀도 추정에 초점을 맞추어 β와 α(밀도 평활도) 사이의 차이를 무시한다. 본 논문은 β > α 인 경우 일반화가 훨씬 빠르게 진행될 수 있음을 수학적으로 증명한다. 결론적으로, 확산 모델은 전체 확률밀도보다 매니폴드의 기하학을 먼저 학습한다. 저정밀 스코어는 매니폴드의 형태를 충분히 포착하고, 이를 통해 새로운 샘플을 생성한다. 따라서 일반화는 기억보다 통계적으로 더 쉬운 문제이며, 이는 모델 설계(예: 스코어 정확도 조절, 노이즈 스케줄링)와 학습 전략(조기 중단, 용량 제한)에서 중요한 시사점을 제공한다.

확산 모델의 일반화는 기하학을 먼저 배우고 기억을 뒤따른다

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기