계층 베이지안 모델을 위한 반분리 해밀턴 몬테카를로

**1. 서론** 베이지안 계층 모델은 데이터 그룹 간 부분 풀링을 가능하게 하여 과적합을 방지하고 모델 복잡성을 자연스럽게 제어한다. 그러나 파라미터 θ와 하이퍼파라미터 φ 사이에 강한 상관관계가 존재해 전통적인 MCMC, 특히 Gibbs 샘플링이나 표준 HMC가 느린 혼합을 보인다. 최근 Riemannian Manifold HMC(RMHMC)는 위치‑의존 질량 행렬을 이용해 이러한 문제를 완화했지만, 질량 행렬의 차원에 비례하는 O(d³) 연산 비용 때문에 대규모 적용이 제한적이다. **2. 계층 베이지안 모델 정의** 데이터는 N개의 그룹 D={D_i} 로 구성되고, 각 그룹 i는 파라미터 θ_i와 입력 x_i에 대한 관측 y_i를 가진다. 모델은 p(y_i|x_i,θ_i)·p(θ_i|φ)·p(φ) 형태의 사후분포 p(θ,φ|D)∝∏_i p(y_i|x_i,θ_i)p(θ_i|φ)p(φ) 로 표현된다. φ는 보통 θ_i의 분산을 조절하는 하이퍼파라미터이며, 이로 인해 θ와 φ 사이에 “funnel” 형태의 병목이 발생한다. **3. Hamiltonian Monte Carlo 기본** HMC는 목표 밀도 π(z) 에 대해 보조 모멘텀 r을 도입하고, Hamiltonian H(z,r)=U(z)+K(r) 로 정의한다. 여기서 U(z)=−logπ(z), K(r)=½ rᵀG⁻¹r (G는 질량 행렬)이다. 표준 HMC는 G를 상수(보통 단위 행렬)로 두어 separable Hamiltonian을 만든다. 그러나 비정형 상관 구조에서는 G를 위치‑의존하게 설계한 RMHMC가 필요하지만, 일반적인 GLI(Generalized Leapfrog Integrator) 구현이 복잡하고 비용이 크다. **4. 반분리 해밀턴 정의** 저자들은 질량 행렬을 G(θ,φ)=⎡G_θ(φ,x) 0⎤ ⎣0 G_φ(θ)⎦ 와 같이 블록 대각선 형태로 제한한다. G_θ는 φ와 데이터 x에만 의존하고, G_φ는 θ에만 의존한다는 점이 핵심이다. 이 구조를 “semi‑separable”이라 부른다. 이때 전체 Hamiltonian은 H(θ,φ,r_θ,r_φ)=U(θ,φ)+½

계층 베이지안 모델을 위한 반분리 해밀턴 몬테카를로

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기