숨은 마코프 모델 클러스터링을 위한 변분 HEM 알고리즘

본 논문은 숨은 마코프 모델(HMM)의 군집화를 위한 새로운 변분 계층적 기대-최대화(VHEM) 알고리즘을 제안한다. 서론에서는 HMM이 음성, 음악, 손글씨, 생물학적 서열 등 다양한 순차 데이터에 널리 사용되고 있음을 언급하고, 이러한 HMM들을 군집화함으로써 계층적 구조를 만들고 모델 복잡도를 줄이는 필요성을 제시한다. 기존 접근법으로는 파라미터 공간에서 직접 k‑means와 유사한 방법을 적용하거나, Battacharyya 거리 기반 유사도 행렬을 만든 뒤 스펙트럴 클러스터링을 수행하는 방법이 있다. 그러나 파라미터가 비선형 매니폴드에 존재하므로 유클리드 거리 기반 군집화는 부적절하고, 스펙트럴 방법은 군집 중심을 기존 HMM 중 하나로만 표현할 수 있어 새로운 대표 모델을 만들지 못한다는 한계가 있다. 이에 저자들은 확률 분포 자체를 비교하는 HEM(framework)을 HMM에 적용하고, 정확한 E‑step이 계산적으로 불가능하므로 변분 근사를 도입한다. 먼저, 베이스 H3M 모델 M(b)와 축소된 H3M 모델 M(r)을 정의하고, 베이스 모델에서 무한히 많은 가상 샘플 Y_i 를 추출한다는 가정을 통해 로그우도 하한을 만든다. 가상 샘플이 어느 축소 컴포넌트 j 에 할당될지를 나타내는 변분 변수 z_ij 를 도입하고, 전체 샘플이 동일한 컴포넌트에 귀속된다는 제약을 두어 군집 일관성을 보장한다. 숨은 상태 시퀀스 x_{1:τ} 를 직접 다루는 것이 비현실적이므로, Hershey(2014)의 변분 분포 P_{i,j}(β_{1:τ}) 를 마코프 체인 형태 φ_{i,j} 로 제한한다. 또한, 각 HMM의 방출이 가우시안 혼합(GMM)임을 이용해, 베이스 모델의 상태 β와 축소 모델의 상태 ρ 사이의 가우시안 성분 매칭을 책임 행렬 η_{i,β}^{(j,ρ)} 로 표현한다. 이렇게 하면 기대 로그우도 E_{M(b)}

숨은 마코프 모델 클러스터링을 위한 변분 HEM 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기