감독된 토픽 모델: 라벨 문서 예측을 위한 새로운 접근

본 논문은 문서와 연관된 라벨(응답 변수)을 동시에 모델링하는 감독된 잠재 디리클레 할당(sLDA)을 제안한다. 일반적인 LDA를 확장해 토픽 분포와 응답 변수를 GLM 형태로 연결하고, 변분 추론과 EM 알고리즘을 이용해 파라미터를 추정한다. 영화 리뷰 평점 예측과 미국 상원 수정안의 정치적 성향 예측 실험을 통해 기존의 비감독 LDA+회귀, 라쏘 회귀보다 우수한 예측 성능을 보인다.

저자: David M. Blei, Jon D. McAuliffe

본 논문은 라벨이 부착된 문서 집합을 효과적으로 분석하기 위해 ‘감독된 잠재 디리클레 할당(sLDA)’이라는 새로운 통계 모델을 제안한다. 기존의 LDA는 문서 내 단어들의 공동 발생 패턴을 토픽이라는 잠재 변수로 요약하지만, 응답 변수(예: 영화 평점, 기사 카테고리 등)는 전혀 고려하지 않는다. 이러한 한계를 극복하고자 저자들은 토픽 구조와 응답 변수를 하나의 확률 모델 안에 통합하였다. 모델 정의는 다음과 같다. 각 문서는 K개의 토픽 비율 θ를 Dirichlet(α)에서 샘플링하고, 문서의 N개 단어 각각에 대해 토픽 할당 zₙ을 Multinomial(θ)로 뽑는다. 이후 단어 wₙ은 해당 토픽의 단어 분포 β_{zₙ}에서 추출한다. 여기까지가 전통적인 LDA와 동일하다. 차별점은 문서 수준에서 응답 y를 생성한다는 점이다. 응답은 전체 토픽 할당의 평균 \bar{z}=N⁻¹∑ₙzₙ에 선형 결합 η·\bar{z}를 적용한 뒤, 일반화 선형 모델(GLM)의 링크 함수와 분산 파라미터 δ를 이용해 생성한다. 즉, p(y|z,η,δ)=h(y,δ)exp{(η·\bar{z})y−A(η·\bar{z})δ} 형태의 지수 분산 가족이다. 이 구조는 응답이 토픽 빈도와 직접적인 선형 관계를 갖도록 강제함으로써, 예측에 유리한 토픽을 자동으로 학습하게 만든다. 학습 과정은 변분 EM 알고리즘으로 수행된다. 변분 분포 q(θ, z)=q(θ|γ)∏ₙq(zₙ|φₙ) 를 가정하고, ELBO(증거 하한)를 최대화한다. ELBO는 LDA와 동일한 세 개의 기대항(θ의 사전, 토픽 할당, 단어 생성)과 변분 엔트로피, 그리고 새롭게 추가된 응답 항 E

감독된 토픽 모델: 라벨 문서 예측을 위한 새로운 접근

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기