베이지안 모델 선택을 위한 중요도 샘플링 방법 비교

본 논문은 베이지안 모델 선택에서 베이즈 요인을 추정하기 위한 여러 중요도 샘플링 기법—단순 몬테카를로, 최대우도 기반 중요도 샘플링, 브리지 샘플링, 조화 평균, 그리고 Chib 방법—을 정리하고, 임베디드 모델(포빗 회귀) 사례에 적용해 성능을 비교한다. 실험 결과, 최대우도 기반 가우시안 중요도 분포가 가장 효율적이며, 브리지와 조화 평균은 임베디드 구조에서 불안정함을 보인다.

저자: Jean-Michel Marin, Christian P. Robert

본 논문은 베이지안 모델 선택에서 핵심적인 역할을 하는 베이즈 요인(Bayes factor)의 계산을 위해 다양한 중요도 샘플링 기법을 체계적으로 정리하고, 실제 데이터에 적용해 성능을 비교한다. 서론에서는 베이즈 요인의 정의와 모델 선택에서의 중요성을 강조하고, 전통적인 전이 차원 MCMC(예: reversible jump) 대신 동일 차원 내에서 샘플링만으로 베이즈 요인을 추정할 수 있는 방법들을 소개한다. 첫 번째로 다루는 방법은 ‘크루드 Monte Carlo’이다. 사전분포 π₀, π₁에서 각각 샘플을 추출하고, 해당 샘플에 대한 우도 f(y|θ)를 평균해 증거를 직접 추정한다. 수식 (5)와 같이 B₀₁≈(1/n₀)∑f(y|θ₀,j) / (1/n₁)∑f(y|θ₁,j) 로 계산한다. 이 방법은 구현이 가장 간단하지만, 사전과 사후가 크게 다를 경우 대부분의 샘플이 거의 0에 가까운 우도를 갖게 되어 추정 분산이 급격히 증가한다. 논문에서는 Pima Indian 데이터에 대해 20,000 샘플을 사용했음에도 불구하고 추정값이 크게 변동하는 모습을 그림 1에 제시한다. 두 번째는 ‘최대우도 기반 중요도 샘플링’이다. 여기서는 각 모델의 사후분포를 가우시안으로 근사한다. 구체적으로, 최대우도 추정값을 평균으로, 추정된 공분산 행렬을 공분산으로 하는 N(μ̂, Σ̂) 제안분포를 사용한다. 이는 특히 probit 회귀와 같이 사후가 거의 정규에 가까운 경우에 효과적이다. 논문에서는 R의 glm() 함수로 얻은 최대우도와 공분산을 이용해 제안분포를 구성하고, 20,000 샘플로 추정한 베이즈 요인이 그림 2와 표 1에 나타난 바와 같이 매우 안정적이며, 평균값이 다른 방법과 일치함을 확인한다. 세 번째는 ‘브리지 샘플링’이다. 원래 Gelman과 Meng(1998)의 방법을 따르며, 두 모델이 동일 파라미터 공간 Θ₀=Θ₁일 때, 공통 제안분포 ϕ(θ)를 사용해 B₀₁ = E_ϕ

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기