분수 포스터리어를 위한 변분 학습

이 논문은 변분 추론(VI)에서 흔히 사용되는 증거 하한(ELBO)의 한계를 극복하고, 보다 유연한 사후분포 근사를 제공하기 위해 **분수 포스터리어(Fractional Posterior)**를 직접 학습하는 새로운 변분 목표 Lγ를 제안한다. **1. 이론적 배경 및 목표 정의** 데이터 D와 잠재 변수 z에 대해 로그 증거 Lₑᵥd=log p(D)를 하한하는 기존 방법은 Rényi 하한 L_Rα를 이용하거나, KL 발산을 최소화하는 ELBO를 사용한다. 그러나 α≠1인 경우 ELBO와 같은 데이터 적합·정규화(regularisation) 분해가 불가능해 해석이 어려워진다. 저자들은 Hölder 부등식을 활용해 Lₑᵥd ≥ (1/β) log ∫ p(z) p(D|z)^β dz ≥ (1/β) log ∫ q̃(z) p(D|z)^β / p(z)^{1‑γ} dz 와 같은 두 단계 하한을 도출하고, β와 γ(β+γ=1)를 파라미터화한다. 여기서 q̃(z)는 정규화되지 않은 비음수 함수이며, 최적화 대상은 Lγ = (1/(1‑γ)) log ∫ q̃(z) p(D|z)^γ dz – (1/(1‑γ)) log ∫ q̃(z)^{1/γ} p(z)^{1‑1/γ} dz 이다. γ→1이면 Lγ는 ELBO와 동일함을 Lemma A.3을 통해 증명한다. **2. 분수 포스터리어와 최적 해** Lγ의 최적 q̃*는 q̃*(z) ∝ p(D|z)^γ p(z) 이며, 정규화 상수 Z̃는 전체 증거와 동일하게 된다. 따라서 Lγ는 **분수 포스터리어**(power posterior)와 정확히 일치하는 하한을 제공한다. γ가 1보다 작을수록 likelihood의 영향이 감소해 모델이 과적합되는 것을 방지하고, 특히 모델이 잘못 지정된 경우에 강건성을 부여한다. **3. 파라미터 γ의 선택** γ는 고정값으로 설정하거나, 모델·데이터 특성에 따라 조정한다. 논문은 γ가 작을수록 (특히 사전과 유사한 근사분포 Q를 사용할 때) 하한이 더 타이트해진다는 실험적 증거를 제시한다. 반면, q̃가 베이즈 사후에 가깝다면 γ≈1이 최적이다. **4. 계층적 확장** q̃(z)를 혼합 형태 q̃(z)=∫q̃(z|u)q(u)du 로 표현하고 Jensen 부등식을 적용해 **L_hγ**라는 새로운 하한을 만든다. 이는 Monte‑Carlo 샘플링을 통해 q̃(z|u)만을 사용해 기대값을 추정할 수 있게 해, 복잡한 후방분포를 효율적으로 근사한다. 또한, 또 다른 변분분포 r(z)를 도입해 **L_bγ**와 **L_bhγ**라는 두 번째 계층의 하한을 정의한다. r(z)를 고정하거나 학습함으로써 q̃가 사전(p)와 r 사이를 보간하도록 제어할 수 있다. **5. 그래디언트와 학습** q̃를 파라미터 θ로 표기하고, 정규화된 q_d(z)와 q_c(z)를 각각 데이터‑적합 및 정규화 항에 대응시켜 ∂Lγ/∂θ = (1/(1‑γ)) ∫ (q_d(z) – q_c(z)) ∂ log q̃(z)/∂θ dz 를 얻는다. 최적점에서는 두 기대값이 일치한다. 이 식은 Monte‑Carlo 추정 없이도 분석적으로 계산 가능하도록 설계되었으며, 논문은 세 가지 사례를 제시한다. - **지수족(Exponential family)**: 사전·우도·근사분포가 모두 지수족 형태일 때, 파라미터 μ, λ에 대한 폐쇄형 업데이트 식을 도출한다. 결과는 μ=ν+γ∑t(x_i), λ=κ+γn 로, 베이즈 사후와 사전 사이를 γ에 따라 선형 보간한다. - **다항식‑가우시안 모델**: 다항식 로짓 likelihood와 표준 정규 사전을 사용하고, q̃를 가우시안·소프트맥스 곱 형태로 가정한다. 여기서는 q_c와 q_d가 각각 정규화된 가우시안과 가우시안·softmax 가중치를 갖으며, 파라미터에 대한 기대값을 직접 계산한다. - **혼합 모델**: K‑component 혼합 모델에 대해 평균장(mean‑field) 근사를 적용하고, L_bγ를 이용해 클러스터 할당 c_i에 대한 ELBO와 q(u)에 대한 Lγ를 결합한다. 이는 기존 변분 혼합 모델에서 발생하는 비정규화 문제를 완화한다. **6. 실험** - **시뮬레이션 (Mixture Model)**: 다양한 γ값에 대해 캘리브레이션(예측 확률과 실제 빈도 일치)과 증거 하한을 비교한다. γ가 작을수록 캘리브레이션 오류가 감소하고, 하한도 ELBO보다 타이트함을 확인한다. - **VAE 적용**: 표준 VAE에 Lγ를 적용해 학습한다. 결과는 (1) ELBO 대비 높은 증거 하한, (2) 사전 N(0,I)에서 샘플링한 디코더 출력이 더 선명하고 다양함, (3) posterior collapse 현상이 완화됨을 보여준다. 특히 γ를 0.7 정도로 설정했을 때 가장 좋은 트레이드오프를 얻었다. **7. 결론 및 향후 연구** 논문은 변분 추론에 “fractional”이라는 새로운 자유도를 도입함으로써, **증거 최적화와 캘리브레이션 사이의 균형**을 정밀하게 조절할 수 있음을 입증한다. 분석적 그래디언트와 계층적 확장은 실제 구현을 용이하게 하며, VAE와 같은 대규모 딥러닝 모델에도 자연스럽게 통합될 수 있다. 향후 연구 방향으로는 γ를 자동으로 학습하는 메커니즘, 비정규화된 q̃를 보다 복잡한 신경망 구조로 확장, 그리고 PAC‑Bayes와의 이론적 연결 고리를 강화하는 것이 제시된다.

분수 포스터리어를 위한 변분 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기