공통 주성분 축을 위한 계층적 베이징 모델과 공분산 풀링 추정

본 논문은 여러 모집단에 걸친 공분산 행렬의 고유구조, 즉 고유벡터(주성분 축)의 유사성을 모델링하고 이를 활용해 공분산 추정을 개선하는 방법을 제안한다. 전통적인 공통 주성분(CPC) 모델은 고유벡터가 완전히 동일하거나 전혀 공유되지 않는 두 극단적인 경우만을 다루어, 실제 데이터에서 흔히 나타나는 ‘부분적 유사성’ 상황을 충분히 포착하지 못한다. 이를 보완하기 위해 저자는 정규 직교 행렬 U∈O(p)에 대해 안티폴리 대칭성을 갖는 일반화 Bingham 분포를 도입한다. 이 분포는 p_B(U|A,B,V)∝exp{tr(BUᵀVAVᵀU)} 의 형태를 가지며, 여기서 V는 전체 모집단을 대표하는 중심 축, A와 B는 각각 행과 열 방향의 ‘분산’ 정도를 나타내는 비음수 대각 행렬이다. A와 B는 가장 작은 고유값을 0으로 고정해 식별성을 확보하고, 차이값만이 실제 확률밀도에 영향을 미치므로 스케일 파라미터 w와 정규화된 α,β(α₁=β₁=1, α_p=β_p=0)로 재파라미터화한다. 이렇게 하면 A와 B의 절대 크기가 아니라 상대적인 차이가 모델에 반영된다. 계층적 베이즈 모델은 두 단계로 구성된다. 첫 번째 단계에서는 각 모집단 k에 대해 고유벡터 U_k를 위 Bingham 분포에서 독립적으로 추출한다(p(U_k|A,B,V)). 두 번째 단계에서는 관측된 데이터로부터 얻은 공분산 추정치 S_k를 Wishart( U_kΛ_kU_kᵀ, n_k−1) 로 모델링한다. 여기서 Λ_k는 고유값 대각 행렬이며, n_k는 모집단 k의 표본 크기이다. 전체 파라미터 집합 {A,B,V, U₁…U_K, Λ₁…Λ_K}에 대한 사후분포는 Gibbs 샘플링을 통해 근사한다. 구체적인 샘플링 절차는 다음과 같다. 1. V의 조건부 분포는 또 다른 일반화 Bingham 형태이므로, 기존의 효율적인 샘플링 알고리즘(예: Hoff 2007b)을 그대로 적용한다. 2. A와 B(또는 α,β,w)의 조건부는 정규화 상수 c(A,B)의 정확한 계산이 어려워, Anderson, Muirhead 등의 근사식을 사용한다. 이를 통해 로그-우도 형태를 얻고, α와 β는

공통 주성분 축을 위한 계층적 베이징 모델과 공분산 풀링 추정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기