사이드 정보와 가우시안 프로세스를 활용한 확률 행렬 분해의 새로운 패러다임

본 논문은 확률 행렬 분해(PMF)가 다양한 분야에서 쌍(pairwise) 관계 데이터를 모델링하는 강력한 도구임을 재확인하면서, 실제 데이터에서는 종종 관측 자체 외에 추가적인 사이드 정보(시간, 위치, 메타데이터 등)가 존재한다는 점을 지적한다. 기존 PMF는 이러한 부가 정보를 직접 포함시키면 선형 결합에 머물러 복잡한 비선형 효과를 포착하지 못한다는 한계가 있다. 이를 극복하기 위해 저자들은 ‘Dependent Probabilistic Matrix Factorization(DPMF)’이라는 새로운 프레임워크를 제안한다. DPMF의 핵심 아이디어는 잠재 특징을 고정된 스칼라 벡터가 아니라 사이드 정보 공간 \(X\) 위에서 정의된 함수 \(u_m(x), v_n(x)\) 로 확장하는 것이다. 여기서 \(m\) 은 행 집합 \(M\) (예: 영화, 팀) 의 인덱스, \(n\) 은 열 집합 \(N\) (예: 사용자, 상대 팀) 의 인덱스를 의미한다. 각 함수는 \(K\) 차원 벡터 값을 반환하며, 행렬 \(Y(x)=U(x)V(x)^{\top}\) 의 원소 \(Y_{mn}(x)=u_m(x)^{\top}v_n(x)\) 가 관측 \(Z_{mn}(x)\) 의 파라미터가 된다. 잠재 함수에 대한 사전분포로 다중 작업 가우시안 프로세스(Multi‑Task GP)를 도입한다. 각 차원 \(k\) 마다 독립적인 GP \(f_{U,k,m}\) 와 \(f_{V,k,n}\) 를 정의하고, 교차 공분산 행렬 \(\Sigma_U, \Sigma_V\) 의 Cholesky 분해 \(L_{\Sigma_U}, L_{\Sigma_V}\) 를 통해 선형 변환한다. 이렇게 하면 같은 차원 내에서 서로 다른 행·열 인덱스 간에 상관관계를 학습할 수 있다. 평균 함수 \(\mu_U, \mu_V\) 는 간단한 가우시안 사전으로 설정한다. 커널 선택은 모델의 유연성을 결정한다. 기본적으로 자동 관련성 결정(ARD) 커널 \(C_{\text{ARD}}(x,x')=\exp\{-\frac12\sum_{d=1}^D (x_d-x'_d)^2/\ell_d^2\}\) 를 사용해 각 사이드 변수의 길이 스케일 \(\ell_d\) 를 학습한다. 이는 어떤 변수는 예측에 크게 기여하고, 어떤 변수는 무시되는지를 자동으로 판단하게 한다. 시간적 주기성이 중요한 경우 주기 커널 \(C_{\text{per}}(x,x')=\exp\{-2\sin^2(\pi|x-x'|/p)/\ell^2\}\) 도 적용 가능하다. 식별성 문제를 해결하기 위해 \(V\) 행렬에 양성 변환 \(\psi(r)=\log(1+e^r)\) 을 적용한다. 이는 부호 플립에 의한 다중 모달성을 방지하고, 추론을 안정화한다. 추론은 베이지안 관점에서 전체 파라미터와 잠재 함수 값을 포함하는 마코프 체인을 구성한다. 주요 변수는 (1) 관측된 \(x\) 위치에서의 \(U(x), V(x)\) 값, (2) GP 하이퍼파라미터 \(\{\theta_{U,k},\theta_{V,k}\}\), (3) 교차 공분산 행렬 \(\Sigma_U, \Sigma_V\), (4) 평균 벡터 \(\mu_U, \mu_V\), (5) 관측 \(Z\) 와 \(Y\) 사이의 likelihood 파라미터이다. GP의 마진 특성을 이용해 함수 값을 관측된 \(x\) 위치에만 유지함으로써 계산 복잡도를 크게 줄인다. 구체적인 샘플링 기법으로는 Slice Sampling과 Elliptical Slice Sampling을 결합해 효율적인 전이 연산자를 만든다. 실험은 미국 프로 농구(NBA) 경기 점수 예측에 초점을 맞춘다. 행 집합 \(M\) 과 열 집합 \(N\) 은 각각 홈 팀과 원정 팀을 의미하고, 사이드 변수 \(x\) 는 경기 날짜와 경기장(홈/어웨이) 정보를 포함한다. 관측 \(Z_{mn}(x)\) 는 경기 점수 차이(또는 총점)이며, 이를 정규 회귀 likelihood에 매핑한다. DPMF는 동일한 경기일에 여러 경기의 점수 차이를 공유하도록 GP가 부드럽게 연결함으로써, 시즌 초반 데이터가 적은 팀에 대해서도 합리적인 예측을 제공한다. 비교 실험에서는 (i) 기본 PMF(사이드 정보 미사용), (ii) 시간에 따른 선형 드리프트를 포함한 확장 모델, (iii) DPMF를 적용한다. 결과는 평균 제곱 오차와 로그우도 기준에서 DPMF가 가장 우수함을 보여준다. 특히 홈 경기에서의 승률 상승, 특정 시즌에 발생하는 경기력 변동 등 비선형 패턴을 정확히 포착한다는 점이 강조된다. 논문은 또한 기존 관련 연구와 차별점을 명확히 한다. GPLVM은 잠재 공간을 커널화하지만, 사이드 정보를 입력으로 사용하지 않는다. Stochastic Relational Model(SRM)은 인덱스 공간 자체를 GP에 매핑하지만, 관측 자체가 입력이 아니라 참여자만을 입력으로 한다. 반면 DPMF는 관측 전체를 입력으로 삼아, 사이드 정보가 직접 잠재 특징에 영향을 미치게 한다. 또한, 다중 작업 GP를 활용해 각 잠재 차원마다 독립적인 커널을 지정함으로써, “코치와 선수”처럼 서로 다른 시간 스케일을 가진 특성을 동시에 모델링한다. 결론적으로, 이 연구는 사이드 정보를 함수 형태로 모델링하고, 다중 작업 가우시안 프로세스를 통해 잠재 특징 간 상관관계와 연속적인 변동성을 동시에 학습하는 새로운 PMF 확장을 제시한다. 베이지안 추론을 통한 불확실성 정량화와, 실험을 통한 실질적인 성능 향상이 입증되었으며, 협업 필터링, 스포츠 분석, 생물학적 상호작용 등 다양한 dyadic 데이터 분야에 적용 가능성을 열어준다.

사이드 정보와 가우시안 프로세스를 활용한 확률 행렬 분해의 새로운 패러다임

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기