일반화된 g우선치를 이용한 완전 베이즈 변수 선택

본 논문은 정규선형 회귀 모델에서 변수 선택을 위해 기존의 Zellner g‑prior를 확장한 일반화된 g‑prior를 제안한다. 제안된 사전은 p > n 상황에서도 적용 가능하며, 베이즈 요인(gBF)의 닫힌 형태식을 도출한다. g에 대한 베타‑프라임 사전과 α, σ²에 대한 비정보 사전을 결합해 완전 베이즈 접근을 구현하고, 이 요인이 모델 선택 일관성, 해석 가능성, 그리고 고차원 데이터에서의 수축 효과를 제공함을 보인다.

저자: Yuzo Maruyama, Edward I. George

이 논문은 정상선형 회귀 모델 y = α 1ₙ + X_F β_F + ε, ε ∼ N(0,σ²Iₙ)에서 변수 선택 문제를 2^p 개의 부분모델 M_γ(γ∈{0,1}^p) 로 정의하고, 베이즈 접근을 통해 각 모델의 사후 확률을 계산한다. 모델별 사전은 p(α,β_γ,σ²) = p(α)p(σ²)p(β_γ|σ²) 로 분해되며, α와 σ²는 각각 위치 불변과 1/σ² 형태의 비정보 사전을 채택한다. 핵심은 β_γ에 대한 일반화된 g‑prior이다. 기존 Zellner g‑prior는 공분산이 gσ²(X_γ'X_γ)⁻¹ 형태로, X_γ'X_γ가 가역이어야 하는 제약이 있었다. 저자는 특이값 분해 X_γ = U D W' 를 이용해 회전된 좌표 β* = W'β에 대해 대각 공분산 Ψ_r(g,ν) = diag{ψ_i(g,ν)} 를 정의한다. 여기서 ψ_i(g,ν) = (ν_i(1+g)−1)/d_i², ν_i ≥ 1이며 d_i는 특이값이다. ν_i가 클수록 해당 주성분에 대한 사전 분산이 작아져, 큰 변동을 보이는 주성분을 더 강하게 수축한다. 이 구조는 q ≤ n−1인 경우와 q > n−1인 경우를 통합해 r = min{q,n−1} 차원에 대해 동일하게 적용된다. g에 대한 사전은 베타‑프라임 형태 p(g) = g^b(1+g)^{−a−b−2} / B(a+1,b+1) 로 설정하고, a > −1, b > −1 를 만족한다. 특히 a를 −½보다 크게, b를 (n−5)/2−q/2−a 로 잡아 p(g) 가 적절히 꼬리를 갖게 한다. 이 사전은 기존 연구에서 제안된 고정 g, 역감마, 혹은 베타‑프라임 사전의 일반화이며, b를 O(n) 로 두면 고차원 상황에서도 적절한 정규화를 제공한다. 주요 결과는 베이즈 요인 BF_{γ:N}(a,ν) 의 닫힌 형태이다. q < n−1일 때는 BF =

일반화된 g우선치를 이용한 완전 베이즈 변수 선택

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기