극희소 데이터용 계층형 복합 포아송 팩터화

HCPF는 기존 HPF의 Gamma‑Poisson 구조와 확장성을 유지하면서, 희소성 모델과 응답 모델을 분리한다. 이를 통해 이진, 이산, 연속, 영‑인플레이션 등 다양한 응답 분포를 자연스럽게 적용할 수 있으며, 극히 희소한 행렬에서도 높은 예측 정확도를 달성한다.

저자: Mehmet E. Basbug, Barbara E. Engelhardt

극희소 데이터용 계층형 복합 포아송 팩터화
본 논문은 협업 필터링과 같은 대규모 희소 행렬 분석에서 기존의 계층형 포아송 팩터화(Hierarchical Poisson Factorization, HPF)가 갖는 한계를 극복하기 위해 ‘계층형 복합 포아송 팩터화(Hierarchical Compound Poisson Factorization, HCPF)’라는 새로운 모델을 제안한다. HPF는 사용자와 아이템의 잠재 요인을 Gamma 사전분포로 두고, 각 행렬 원소를 Poisson 변수의 합으로 모델링한다. 이때 결측(희소) 여부와 실제 응답값이 동일한 Poisson 파라미터에 결합돼 있어, 비이진 응답을 다루기 어렵고, 희소성이 극단적으로 높을 경우 응답이 1에 집중되는 비현실적인 현상이 발생한다. HCPF는 이러한 결합을 ‘복합 포아송(Compound Poisson)’ 구조로 풀어낸다. 복합 포아송은 먼저 Poisson(Λ)으로부터 발생 횟수 N을 샘플링하고, 각 횟수마다 동일한 요소 분포 p_Ψ(x;θ,κ)를 독립적으로 샘플링한 뒤 그 합 X⁺ = Σ_{j=1}^{N} X_j 로 정의된다. 요소 분포를 일반적인 additive exponential dispersion model(EDM)으로 두면, 조건부 분포 X⁺|N=n 역시 동일한 EDM(p_Ψ)이며, 전체 분포는 폐쇄형이 아니지만 변분 추정이 가능하도록 설계할 수 있다. 핵심 이론적 기여는 ‘Decoupling Theorem’이다. 이 정리는 Λ→0(즉, 데이터가 거의 전부 결측)일 때 영‑절단 복합 포아송 X⁺⁺ = X⁺ | X⁺≠0 가 요소 분포 p_Ψ와 동일하게 수렴한다는 것을 보인다. 따라서 희소성 모델(Λ)와 응답 모델(p_Ψ)를 독립적으로 설계하면서도, Λ와 응답 기대값 사이에 E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기