인공 면역 시스템 기반 영화 추천 가중 카파와 켄달 타우 비교
본 논문은 협업 필터링에 인공 면역 시스템(AIS)을 결합하여 영화 추천 모델을 구현하고, 두 가지 친화도 측정 방식인 가중 카파(Weighted Kappa)와 켄달 타우(Kendall tau)를 비교한다. 실험 결과 가중 카파가 영화 평점 데이터의 특성에 더 적합하여 예측 정확도가 약간 높게 나타났으며, 켄달 타우는 많은 ‘0’값을 무시해야 하는 문제점이 드러났다.
저자: Qi Chen, Uwe Aickelin
본 논문은 인공 면역 시스템(AIS)을 협업 필터링(CF)과 결합하여 영화 추천 시스템을 구현하고, 두 가지 친화도 측정 알고리즘인 가중 카파(Weighted Kappa)와 켄달 타우(Kendall tau)를 비교 분석한다. 먼저, 인간 면역 시스템의 항체‑항원 상호작용을 모방한 AIS 모델을 소개한다. AIS에서는 데이터베이스에 저장된 사용자 프로필을 ‘항체’로, 현재 추천을 요청하는 사용자를 ‘항원’으로 간주한다. 면역 네트워크 모델(식 1)을 통해 항체와 항원, 항체 간의 친화도에 따라 항체 농도(concentration)를 동적으로 조정한다. 농도가 일정 이하로 떨어지면 해당 항체를 제거하고 새로운 항체를 무작위로 채택한다. 이렇게 선택된 100명의 항체(유사 사용자)들의 평점 가중 평균을 이용해 목표 사용자에게 영화를 추천한다.
친화도 계산에는 두 가지 통계적 방법을 적용한다. 가중 카파는 관측된 동의도와 기대 동의도를 비교하는 방식이며, 영화 평점이 0, 0.2, 0.4, 0.6, 0.8, 1의 6단계로 구분된 상황에 맞게 가중치를 정의한다(식 4). 동일 등급이면 가중치 1, 차이가 클수록 가중치가 감소한다. 예시에서는 두 사용자가 6개의 영화를 공통으로 평가했을 때, 가중 카파 값 0.667을 얻었다. 반면 켄달 타우는 순위쌍 기반 비모수 상관계수로, 두 사용자의 평점 순서가 일치하는 경우를 ‘동의(concordant)’라 하고, 반대인 경우를 ‘불일치(discordant)’라 정의한다. 전체 순서쌍 수는 n(n‑1)/2이며, τ̂ = (C‑D)/(0.5 n(n‑1)) 로 계산한다. 그러나 영화 평점 데이터에는 ‘0’값(평점 부재)이 많이 존재해 많은 순서쌍을 무시해야 하며, 평균 38 % 이상의 정보가 손실된다. 또한 ‘0’값을 양·음수로 처리하면 τ값이 순서에 따라 크게 변동한다는 문제점이 있다.
실험은 Compaq(EachMovie) 데이터셋을 사용했다. 이 데이터는 72 916명의 사용자가 1 628 개의 영화에 대해 281 1983개의 평점을 제공한다. 300명의 사용자를 무작위로 선택하고, 각 사용자에 대해 20번씩 하나의 평점을 숨겨 예측 정확도를 측정하였다. 가중 카파 기반 시스템은 평균 정확도 0.80762, 켄달 타우 기반 시스템은 0.7964를 기록했다. 차이는 약 1 % 수준이지만, 가중 카파는 ‘0’값을 무시하지 않아 정보 손실이 적고, 친화도 분포가 전반적으로 양수이며 안정적이다. 켄달 타우는 일부 경우 음수 친화도가 나타나 AIS 내에서 항체 선택이 비효율적으로 진행될 위험이 있다.
또한 두 방법을 교차 적용한 실험을 수행했다. 가중 카파를 이용해 AIS를 구성하고, 이후 켄달 타우로 항체‑항원 친화도를 재계산한 경우(Kappa → AIS → Kendall)와, 반대로 켄달 타우로 AIS를 구성한 뒤 가중 카파로 재계산한 경우(Kendall → AIS → Kappa)를 비교했다. Kappa → AIS에서는 대부분의 항체가 높은 친화도를 보였으며, 추천 품질이 일관되게 유지되었다. 반면 Kendall → AIS에서는 일부 항체가 낮은 혹은 음수 친화도를 보여 AIS의 수렴 속도가 저하될 가능성을 시사한다.
논문은 이러한 실험 결과를 바탕으로 다음과 같은 결론을 도출한다. 첫째, 영화와 같이 등급이 제한된 이산형 평점 데이터에서는 가중 카파가 통계적 의미와 계산 효율성 측면에서 우수하다. 둘째, 켄달 타우는 ‘0’값 처리 문제와 순위 기반 특성 때문에 영화 평점 데이터에 적용하기에 부적합하다. 셋째, AIS와 결합했을 때 가중 카파는 높은 친화도 값을 유지하며, 항체 선택과 농도 업데이트 과정에서 안정적인 동작을 보인다. 따라서 실용적인 영화 추천 시스템을 설계할 때는 가중 카파 기반 AIS 모델을 채택하는 것이 바람직하다고 제안한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기