계층 베이지안 모델을 위한 반분리 해밀턴 몬테카를로
본 논문은 계층 베이지안 모델에서 파라미터와 하이퍼파라미터 사이의 강한 상관관계로 인한 샘플링 어려움을 해결하고자, 질량 행렬을 블록 대각선 형태로 제한한 ‘반분리 해밀턴’ 구조를 도입한다. 이를 기반으로 두 개의 단순한 해밀턴 시스템으로 분해하고, 교차 블록‑리프프로그(Alternating Blockwise Leapfrog) 알고리즘을 적용해 효율적인 RMHMC 변형인 SSHMC를 제안한다. 실험적으로 기존 Gibbs 샘플링보다 빠른 혼합을 …
저자: Yichuan Zhang, Charles Sutton
**1. 서론**
베이지안 계층 모델은 데이터 그룹 간 부분 풀링을 가능하게 하여 과적합을 방지하고 모델 복잡성을 자연스럽게 제어한다. 그러나 파라미터 θ와 하이퍼파라미터 φ 사이에 강한 상관관계가 존재해 전통적인 MCMC, 특히 Gibbs 샘플링이나 표준 HMC가 느린 혼합을 보인다. 최근 Riemannian Manifold HMC(RMHMC)는 위치‑의존 질량 행렬을 이용해 이러한 문제를 완화했지만, 질량 행렬의 차원에 비례하는 O(d³) 연산 비용 때문에 대규모 적용이 제한적이다.
**2. 계층 베이지안 모델 정의**
데이터는 N개의 그룹 D={D_i} 로 구성되고, 각 그룹 i는 파라미터 θ_i와 입력 x_i에 대한 관측 y_i를 가진다. 모델은 p(y_i|x_i,θ_i)·p(θ_i|φ)·p(φ) 형태의 사후분포 p(θ,φ|D)∝∏_i p(y_i|x_i,θ_i)p(θ_i|φ)p(φ) 로 표현된다. φ는 보통 θ_i의 분산을 조절하는 하이퍼파라미터이며, 이로 인해 θ와 φ 사이에 “funnel” 형태의 병목이 발생한다.
**3. Hamiltonian Monte Carlo 기본**
HMC는 목표 밀도 π(z) 에 대해 보조 모멘텀 r을 도입하고, Hamiltonian H(z,r)=U(z)+K(r) 로 정의한다. 여기서 U(z)=−logπ(z), K(r)=½ rᵀG⁻¹r (G는 질량 행렬)이다. 표준 HMC는 G를 상수(보통 단위 행렬)로 두어 separable Hamiltonian을 만든다. 그러나 비정형 상관 구조에서는 G를 위치‑의존하게 설계한 RMHMC가 필요하지만, 일반적인 GLI(Generalized Leapfrog Integrator) 구현이 복잡하고 비용이 크다.
**4. 반분리 해밀턴 정의**
저자들은 질량 행렬을
G(θ,φ)=⎡G_θ(φ,x) 0⎤
⎣0 G_φ(θ)⎦
와 같이 블록 대각선 형태로 제한한다. G_θ는 φ와 데이터 x에만 의존하고, G_φ는 θ에만 의존한다는 점이 핵심이다. 이 구조를 “semi‑separable”이라 부른다.
이때 전체 Hamiltonian은
H(θ,φ,r_θ,r_φ)=U(θ,φ)+½
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기