대규모 군중 선호 학습을 위한 베이지안 스케일러블 모델

본 논문은 “crowdGPPL”이라 명명된 새로운 베이지안 선호 학습 프레임워크를 제안한다. 연구 배경으로는 페어와이즈 라벨이 개인마다 크게 다를 수 있고, 라벨이 희소·노이즈가 섞여 있다는 점을 들며, 이러한 상황에서 개인 선호와 군중 전체의 합의를 동시에 모델링하는 필요성을 강조한다. 기존 연구는 (i) 단일 사용자에 대한 GP 기반 선호 학습(GPPL), (ii) 사용자·아이템 행렬 분해 기반 협업 필터링, (iii) 크라우드소싱 라벨의 정확도 추정 등으로 나뉘지만, 각각은 (a) 대규모 사용자·아이템에 대한 확장성 부족, (b) 입력 특성을 활용한 일반화 어려움, (c) 개인 선호와 군중 합의를 별도로 다루는 한계가 있다. crowdGPPL은 이러한 한계를 극복하기 위해 다음과 같은 구조를 채택한다. 먼저, 아이템 특성 x∈ℝᴰ에 대해 가우시안 프로세스 커널 kθ를 정의하고, 이를 통해 아이템 유틸리티 f(x)를 GP 사전으로 설정한다. 동시에, 각 사용자 u에 대해 저차원 잠재 벡터 wᵤ∈ℝᴸ을 도입하고, fᵤ(x)=wᵤᵀφ(x) 형태로 개인 유틸리티를 표현한다. 여기서 φ(x) 는 커널 기반 임베딩이며, wᵤ는 베이지안 행렬 분해의 가중치로서 정규화된 가우시안 사전(N(0,σ²I))을 갖는다. 라벨 y(a,b) 는 프로빗(Φ) likelihood를 사용해 p(y=1|fᵤ(a),fᵤ(b))=Φ(fᵤ(a)−fᵤ(b)) 로 모델링한다. 라벨 노이즈는 스케일 파라미터 s에 감마 사전(G(α₀,β₀))을 부여함으로써 조절한다. 모델 학습은 변분 추론을 통해 수행된다. 전체 데이터셋을 미니배치로 나누어 각 배치에 대해 ELBO(증분 하한)를 계산하고, 스토캐스틱 경사 상승법으로 변분 파라미터(인덕팅 포인트 위치 Z, 인덕팅 가중치 m, S, 사용자 가중치 wᵤ 등)를 업데이트한다. 이때 인덕팅 포인트 수 M은 데이터 크기에 독립적으로 고정되며, 복잡도는 O(M³)·O(M²) 수준으로 제한된다. 또한, 변분 파라미터는 자동 미분 프레임워크(PyTorch) 위에서 구현되어 GPU 가속이 가능하다. 실험은 두 가지 도메인에서 수행되었다. 첫 번째는 영화·음악 추천 로그 데이터이며, 여기서는 기존 GPPL, collabGP, 그리고 최신 딥 협업 필터링 모델과 비교하였다. 평가 지표는 NDCG@10, MAP, 그리고 AUC이며, crowdGPPL은 특히 새로운 사용자·아이템에 대한 제로샷 성능에서 5~10%p의 개선을 보였다. 두 번째는 논증 설득도 라벨링 데이터(수천 명의 라벨러, 수만 개의 문서 쌍)로, 이 데이터는 텍스트 임베딩(BERT)과 메타데이터(작성자, 주제) 를 특성으로 사용하였다. 대규모 실험에서 메모리 사용량은 2~3GB 수준에 머물렀으며, 기존 GP 기반 방법은 30GB 이상을 요구해 학습이 불가능했다. 성능 면에서도 crowdGPPL은 기존 베이스라인 대비 AUC 0.87→0.91 로 유의미한 향상을 기록했다. 논문의 주요 기여는 다음과 같다. 1) GP와 베이지안 행렬 분해를 결합해 개인 선호와 군중 합의를 동시에 모델링, 2) 스토캐스틱 변분 추론을 적용해 데이터 규모와 무관한 연산·메모리 복잡도 달성, 3) 입력 특성을 활용해 새로운 아이템·사용자에 대한 일반화 능력 확보, 4) 공개 코드와 재현 가능한 실험 제공. 한편, 제한점으로는 인덕팅 포인트 수 M 선택이 경험적이며, 고차원 텍스트 임베딩을 직접 커널에 적용할 경우 커널 매트릭스 계산 비용이 증가할 수 있다는 점을 들었다. 향후 연구에서는 자동 M 튜닝, 딥 커널 학습, 그리고 다중 모달(텍스트·이미지·오디오) 특성 통합을 통한 확장성을 모색한다.

대규모 군중 선호 학습을 위한 베이지안 스케일러블 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기