공분산 적응 슬라이스 샘플링

본 논문은 다변량 슬라이스 샘플링을 위한 두 가지 적응형 “크럼” 방법을 제안한다. 거부된 제안점의 로그밀도와 기울기를 이용해 지역 곡률을 추정하고, 이를 통해 크럼의 공분산을 동적으로 조정한다. 실험 결과, 차원이 낮고 변수 간 상관성이 강한 분포에서 기존 비적응형 슬라이스와 메트로폴리스 방법보다 우수한 효율성을 보였다.

저자: Madeleine Thompson, Radford M. Neal

본 논문은 다변량 슬라이스 샘플링을 위한 새로운 적응형 알고리즘을 제안한다. 슬라이스 샘플링은 목표 분포 f(x)의 로그밀도 표면 아래에서 균일하게 점을 뽑는 보조 변수 MCMC 방법이며, 기존에는 주로 일변량 혹은 단순 다변량 확장에 의존했다. 그러나 변수 간 상관성이 강하거나 목표 분포가 비등방성인 경우, 전통적인 메트로폴리스나 비적응형 슬라이스는 효율이 급격히 떨어진다. 이를 해결하고자 저자들은 “크럼(framework)”이라는 일반적인 구조를 활용한다. 크럼은 현재 상태 x₀에서 시작해, 정규분포 N(x₀, Wₖ⁻¹) 형태의 “빵 부스러기”(crumb)를 여러 번 샘플링하고, 이 부스러기들을 관측값처럼 취급해 x₀에 대한 사후분포를 계산한다. 이 사후분포는 새로운 제안점 xₖ을 생성하는 데 사용되며, 제안점이 현재 슬라이스 S_{y₀} 안에 들어오면 수용된다. 핵심은 크럼의 공분산 행렬 Wₖ를 어떻게 선택하느냐이다. 저자는 두 가지 적응 전략을 제시한다. 첫 번째 전략은 슬라이스의 조건부 분산을 추정해, 그 방향에 맞는 Wₖ₊₁을 설계한다. 구체적으로, 거부된 제안점 xₖ에서 로그밀도와 그 기울기 ∇log f(xₖ)를 계산하고, 이를 이용해 로그밀도 곡면을 2차 다항식 ` = -½ κ t² + β t + γ 로 근사한다. 여기서 t는 기울기 방향으로의 거리이며, κ는 곡률(두 번째 미분)이다. κ는 로그밀도값 f(xₖ), f(uₖ) (uₖ는 xₖ에서 기울기 방향으로 거리 δ만큼 이동한 점)와 기울기의 크기를 이용해 식 (14)로 구한다. 이후 슬라이스 레벨 log y₀와 모드값 M 사이의 거리 d를 (16)식으로 구하고, 목표 분산 σ²ₖ₊₁ = d²/12 로 정의한다. 목표 분산을 만족하도록 Wₖ₊₁을 Wₖ₊₁ = θ Λₖ + α g gᵀ 형태로 만들고, α를 (23)식으로 계산한다. 여기서 g는 정규화된 기울기, Λₖ는 현재까지 모은 크럼 정밀도들의 합이다. θ는 전체 정밀도 증가 비율이며 보통 1을 사용한다. 이렇게 하면 제안점의 공분산이 슬라이스의 형태에 점점 가까워지도록 적응한다. 두 번째 전략은 첫 번째 방법이 양의 정부호 제약 때문에 적용이 어려울 때를 대비한다. 여기서는 기울기 방향의 분산을 0으로 강제한다(즉, 해당 차원을 완전히 제거한다). 이는 슬라이스가 매우 얇은 초평면에 가까워지는 경우에 유리하며, 계산적으로도 간단하다. 알고리즘 구현에서는 효율성을 위해 크럼과 제안점의 샘플링을 Cholesky 분해(Fₖ, Rₖ)를 이용해 O(p²) 연산으로 수행한다. 크럼을 그릴 때는 cₖ = x₀ + Fₖ⁻¹ z₁ (z₁은 표준 정규벡터) 로, 제안점은 xₖ = ¯cₖ + Rₖ⁻¹ z₂ 로 만든다. 크럼 평균 누적값 ¯c*ₖ = Σ_{i=1}^k W_i c_i 를 유지하고, 이를 Rₖ⁻¹Rₖ⁻ᵀ와 곱해 정규화된 평균 ¯cₖ를 O(p²) 시간에 얻는다. 또한, Wₖ₊₁과 Λₖ₊₁의 업데이트는 rank‑one Cholesky 업데이트(chud) 함수를 사용해 O(p²) 시간에 수행한다. 실험에서는 네 가지 분포를 사용했다. (1) 2차원 타원형 정규분포, (2) 5차원 강상관 정규분포, (3) 10차원 “banana” 형태 비선형 분포, (4) 베이지안 로지스틱 회귀 모델(실제 데이터). 각 경우에 비적응형 슬라이스, 메트로폴리스, 첫 번째 적응법, 두 번째 적응법을 비교하였다. 결과는 다음과 같다. 낮은 차원(2~5)에서 변수 간 상관성이 강할수록 적응형 크럼 방법이 제안 수용률과 유효 샘플당 연산량 면에서 크게 앞섰다. 특히, 첫 번째 방법이 슬라이스 형태를 잘 추정하면 거의 균일한 제안 분포를 만들 수 있어 빠른 수렴을 보였다. 두 번째 방법은 첫 번째 방법이 양의 정부호 제한에 걸릴 때도 안정적으로 동작했으며, 고차원에서 슬라이스가 얇은 경우에 유리했다. 반면, 차원이 10 이상이거나 다중모드가 존재하는 경우, 적응 효과가 감소하고 메트로폴리스와 비적응형 슬라이스가 비슷한 성능을 보였다. 논문의 주요 기여는 (1) 로그밀도와 기울기를 이용해 지역 곡률을 추정하고, 이를 크럼 공분산에 반영함으로써 슬라이스 샘플링을 다변량 고상관성 상황에 적용 가능하게 한 점, (2) Cholesky 기반의 효율적인 구현을 제시해 O(p³) 비용을 O(p²)로 낮춘 점, (3) 두 가지 상보적인 적응 전략을 제공해 다양한 상황에 대응할 수 있게 한 점이다. 저자는 향후 연구로 (a) 고차원에서 스파스 구조를 활용한 공분산 추정, (b) 다중모드 분포에 대한 자동 모드 탐색 및 혼합 크럼 전략, (c) 크럼 프레임워크와 Hamiltonian Monte Carlo 같은 다른 보조 변수 기법의 결합을 제안한다. 이러한 확장은 베이지안 모델링, 머신러닝, 물리 시뮬레이션 등 다양한 분야에서 MCMC 효율성을 크게 향상시킬 잠재력을 가진다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기