재귀적 지수 모델의 점수와 정보량 – 불완전 데이터에서의 새로운 해석

** 본 논문은 베이지안 네트워크 기반의 재귀적 그래프 모델을 확장한 ‘재귀적 지수 모델(Recursive Exponential Model)’을 제안한다. 전문가의 불확실한 사전 지식을 근사적으로 결합 가능한 ‘근사적 켤레 사전분포’를 도입하고, 결측 데이터를 포함한 상황에서 로그우도와 로그사후확률의 도함수인 점수와 관측 정보를 체계적으로 유도한다. 전통적인 점수·관측 정보와 사후 점수·사후 정보를 동시에 제공함으로써 파라미터 추정 및 모델…

저자: Bo Thiesson

** 본 논문은 베이지안 네트워크와 같은 재귀적 그래프 모델이 실제 전문가 시스템에 적용될 때 마주치는 두 가지 핵심 문제—(1) 전문가가 제공하는 불확실하고 비정형적인 사전 지식, (2) 실무에서 흔히 발생하는 결측 데이터—를 동시에 해결하고자 한다. 이를 위해 저자들은 기존 재귀적 그래프 모델(RGM)의 구조적 틀을 유지하면서, 각 로컬 확률분포를 지수형(Exponential family) 형태로 재정의한 **재귀적 지수 모델(Recursive Exponential Model, REM)** 을 제안한다. REM의 핵심 아이디어는 각 노드의 조건부 확률을 충분통계(T)와 자연 매개변수(θ)로 표현하는 지수형 분포로 모델링함으로써, 파라미터 수준에서 복잡한 도메인 지식을 직접 삽입할 수 있게 하는 것이다. 예를 들어, “증상 A가 질병 B와 70%~80% 확률로 연관된다”는 전문가 의견을 평균과 신뢰구간 형태로 제시하면, 이를 최소제곱법이나 최대엔트로피 원칙을 이용해 자연 매개변수 η = A·μ + b 로 변환한다. 이렇게 변환된 η는 **근사적 켤레 사전(Approximate Conjugate Prior)** 으로서, 사전분포와 사후분포가 동일한 지수형 구조를 유지하도록 만든다. 따라서 사전 정보를 정량화하는 과정이 복잡한 수치적 최적화가 아니라 선형 대수 연산으로 해결된다. 다음으로, 데이터에 결측값이 존재할 경우 전통적인 로그우도 ℓ(θ) = Σ_i log p(x_i|θ) 를 직접 미분할 수 없으므로, 저자들은 EM(Expectation–Maximization) 알고리즘을 기반으로 점수와 관측 정보를 도출한다. E‑step에서는 현재 파라미터 추정값을 이용해 결측값의 기대 충분통계 E

재귀적 지수 모델의 점수와 정보량 – 불완전 데이터에서의 새로운 해석

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기