잠재 특성을 활용한 FM 기반 영화 평점 예측 모델
본 논문은 영화 시청 이력을 암묵적 피드백으로 활용하기 위해 LDA와 word2vec으로 추출한 잠재 특성을 FM(Factorization Machines)에 결합한 두 가지 모델을 제안한다. Topic‑based FM은 LDA 토픽을, Vector‑based FM은 word2vec 순서 정보를 각각 특징으로 사용하여 기존 FM 대비 RMSE를 크게 낮추었다. 실험은 Baidu, 10M MovieLens, Netflix Prize 세 데이터셋에…
저자: Xudong Liu, Bin Zhang, Ting Zhang
본 논문은 영화 평점 예측이라는 구체적 상황에서 사용자의 시청 이력이 암묵적 피드백으로 작용한다는 가정 하에, 기존 행렬 분해 기반 협업 필터링이 놓치고 있는 정보를 보완하고자 한다. 이를 위해 두 가지 잠재 특성 추출 방법을 도입한다. 첫 번째는 LDA(Latent Dirichlet Allocation)이며, 사용자의 시청 이력을 하나의 문서, 각 영화를 단어로 간주해 토픽 분포를 학습한다. Gibbs 샘플링을 통해 사용자와 아이템 각각에 K개의 토픽 벡터(θ)와 해당 토픽의 가중치(w)를 얻는다. 이러한 토픽‑가중치 쌍은 FM(Factorization Machines)의 입력 피처로 사용되며, 기존 FM이 제공하는 사용자·아이템 고유 벡터(p, q)와 전역·편향(b) 외에 θ·w 형태의 교차항을 추가한다. 수식 (3)‑(4)는 이 구조를 명시적으로 보여주며, 특히 사용자‑사용자, 아이템‑아이템 교차항을 포함해 표현력을 강화한다. 두 번째는 word2vec의 Skip‑Gram 모델이다. 여기서는 시청 이력의 순서를 보존하기 위해 각 영화 주변의 전후 3개 영화를 컨텍스트로 삼아 임베딩(v)을 학습한다. 이렇게 얻은 아이템 임베딩은 FM에 아이템 피처로만 투입하고, 사용자 피처는 제외한다. 이는 “같은 시점에 연속적으로 시청된 영화들 간의 유사성”을 모델에 반영한다는 의미이다. FM의 예측식 (5)은 아이템 임베딩과 가중치 w, 그리고 아이템‑아이템 교차항을 포함한다. 실험은 Baidu 영화 추천 대회 데이터(시계열 정보 없음), 10M MovieLens, Netflix Prize 세 대규모 데이터셋을 대상으로 수행되었다. Baseline 모델은 사용자·아이템 ID만을 사용한 FM이며, LDA와 word2vec은 각각 공개 구현(GibbsLDA++, word2vec)으로 8차와 20차 차원을 실험했다. 결과는 다음과 같다. (1) Topic‑based FM은 모든 데이터셋에서 RMSE가 Baseline보다 평균 1~2% 개선되었으며, 차원 수가 늘어날수록 성능이 향상되었다. (2) Vector‑based FM은 특히 순서 정보를 활용함으로써 Topic‑based FM보다 더 낮은 RMSE를 기록했으며, Netflix Prize에서는 수렴 속도도 빠른 것으로 나타났다. (3) Baidu 데이터는 시간 정보가 없으므로 Vector‑based FM을 적용하지 못했지만, Topic‑based FM만으로도 의미 있는 성능 향상을 보였다. 논문의 주요 기여는 (i) 암묵적 피드백을 토픽 기반과 순서 기반 두 형태의 잠재 특성으로 변환해 FM에 통합한 점, (ii) 기존 M³F 모델 대비 학습 단계가 단순화되어 효율성이 높아진 점, (iii) 대규모 실험을 통해 제안 모델이 실제 서비스 환경에서도 적용 가능함을 입증한 점이다. 한계점으로는 토픽 수와 임베딩 차원 선택에 대한 민감도, 사용자‑아이템 복합 상호작용을 완전히 포착하지 못함, 그리고 시간 정보가 없는 데이터에 대한 적용 제한이 있다. 향후 연구에서는 하이퍼파라미터 자동 튜닝, 사용자 임베딩을 순서 정보와 결합한 하이브리드 모델, 그리고 실시간 스트리밍 환경에서의 온라인 업데이트 메커니즘을 탐색할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기