공통 주성분 축을 위한 계층적 베이징 모델과 공분산 풀링 추정
본 논문은 여러 모집단의 공분산 행렬이 완전히 동일하지는 않지만 주성분 축(고유벡터)에서는 높은 유사성을 보이는 경우를 다룬다. 저자는 정규화된 고유벡터 행렬을 확률적으로 모델링하기 위해 안티폴리 대칭성을 갖는 일반화된 Bingham 분포를 도입하고, 이를 계층적 베이즈 프레임워크에 삽입한다. MCMC 기반 Gibbs 샘플링을 통해 전체 파라미터와 각 모집단별 고유벡터·고유값을 추정하며, 표본 크기가 작은 모집단에 대해 공통 축으로의 수축(sh…
저자: Peter Hoff
본 논문은 여러 모집단에 걸친 공분산 행렬의 고유구조, 즉 고유벡터(주성분 축)의 유사성을 모델링하고 이를 활용해 공분산 추정을 개선하는 방법을 제안한다. 전통적인 공통 주성분(CPC) 모델은 고유벡터가 완전히 동일하거나 전혀 공유되지 않는 두 극단적인 경우만을 다루어, 실제 데이터에서 흔히 나타나는 ‘부분적 유사성’ 상황을 충분히 포착하지 못한다. 이를 보완하기 위해 저자는 정규 직교 행렬 U∈O(p)에 대해 안티폴리 대칭성을 갖는 일반화 Bingham 분포를 도입한다. 이 분포는
p_B(U|A,B,V)∝exp{tr(BUᵀVAVᵀU)}
의 형태를 가지며, 여기서 V는 전체 모집단을 대표하는 중심 축, A와 B는 각각 행과 열 방향의 ‘분산’ 정도를 나타내는 비음수 대각 행렬이다. A와 B는 가장 작은 고유값을 0으로 고정해 식별성을 확보하고, 차이값만이 실제 확률밀도에 영향을 미치므로 스케일 파라미터 w와 정규화된 α,β(α₁=β₁=1, α_p=β_p=0)로 재파라미터화한다. 이렇게 하면 A와 B의 절대 크기가 아니라 상대적인 차이가 모델에 반영된다.
계층적 베이즈 모델은 두 단계로 구성된다. 첫 번째 단계에서는 각 모집단 k에 대해 고유벡터 U_k를 위 Bingham 분포에서 독립적으로 추출한다(p(U_k|A,B,V)). 두 번째 단계에서는 관측된 데이터로부터 얻은 공분산 추정치 S_k를 Wishart( U_kΛ_kU_kᵀ, n_k−1) 로 모델링한다. 여기서 Λ_k는 고유값 대각 행렬이며, n_k는 모집단 k의 표본 크기이다. 전체 파라미터 집합 {A,B,V, U₁…U_K, Λ₁…Λ_K}에 대한 사후분포는 Gibbs 샘플링을 통해 근사한다.
구체적인 샘플링 절차는 다음과 같다.
1. V의 조건부 분포는 또 다른 일반화 Bingham 형태이므로, 기존의 효율적인 샘플링 알고리즘(예: Hoff 2007b)을 그대로 적용한다.
2. A와 B(또는 α,β,w)의 조건부는 정규화 상수 c(A,B)의 정확한 계산이 어려워, Anderson, Muirhead 등의 근사식을 사용한다. 이를 통해 로그-우도 형태를 얻고, α와 β는
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기