과학 분야 상관 토픽 모델 수정 공지

본 논문은 2007년 발표된 “A Correlated Topic Model of Science”의 두 번째 식에 누락된 엔트로피 항 + H(qₙ)를 추가한 정정 내용이다. 수정된 식은 변분 하한(Lower Bound) 계산에 필수적인 엔트로피 항을 포함함으로써 모델 추정의 정확성을 보장한다.

저자: ** - David M. Blei (프린스턴 대학교) - John D. Lafferty (카네기 멜론 대학교) **

2007년 Annals of Applied Statistics에 게재된 “A Correlated Topic Model of Science”는 과학 논문 집합에 토픽 간 상관 관계를 도입한 최초의 베이지안 모델로, 전통적인 라티스 디리클레 할당(LDA) 모델의 독립 토픽 가정을 넘어, 토픽 간 공분산 구조를 추정함으로써 보다 현실적인 주제 분포를 제공한다. 저자 David M. Blei와 John D. Lafferty는 변분 베이지안 추론을 이용해 모델 파라미터 µ(평균), Σ(공분산), β₁:K(각 토픽의 단어 분포)를 추정하고, 문서‑별 잠재 변수 η_d(토픽 비율의 로그 변환)와 z_d(단어‑토픽 할당)를 통해 관측 데이터 w_d(단어)를 설명한다. 핵심 수식은 변분 하한(ELBO)으로, 로그우도에 대한 기대값과 변분 분포 q_d의 엔트로피 H(q_d)를 합산해 하한을 형성한다. 원 논문에서는 이 하한을 다음과 같이 제시했지만, 두 번째 식(페이지 24)에서 엔트로피 항이 누락된 오류가 있었다. 즉, 원문은 L(µ, Σ, β₁:K; w₁:D) ≥ ∑_{d=1}^D E_{q_d}

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기