자동화된 변분 추론을 위한 확률 프로그래밍
본 논문은 확률 프로그래밍 언어에 적용 가능한 자동 변분 추론 알고리즘을 제안한다. 스토캐스틱 그래디언트를 이용해 변분 프로그램을 직접 최적화함으로써, 복잡하고 비분해 가능한 모델에서도 효율적인 근사 사후분포를 얻을 수 있다. 평균장 근사와 구조화된 변형을 자동으로 생성하고, 베이스라인 상수 K를 최적화해 그래디언트 분산을 감소시킨다. 실험에서는 QMR‑DT와 LDA에 대해 기존 샘플 기반 방법보다 빠른 수렴과 낮은 변동성을 보였다.
저자: David Wingate, Theophane Weber
본 논문은 확률 프로그래밍 언어에 특화된 자동 변분 추론 프레임워크를 제안한다. 확률 프로그래밍은 개발자가 확률적 모델을 일반 프로그래밍 언어와 유사한 구문으로 기술하도록 허용한다. 이러한 프로그램은 실행 시 일련의 ERP(기본 확률 절차)를 순차적으로 호출하며, 각 호출은 히스토리 h_t 에 의존하는 파라미터 ψ_t 를 가진 확률 분포 p_t 로부터 샘플을 생성한다. 프로그램 전체의 트레이스 x = (x_1,…,x_T) 의 확률은 식 (1) 로 정의된다. 전통적인 추론 방법은 사후 p(x|y) 를 직접 샘플링하거나, MCMC와 같은 샘플 기반 방법에 의존한다. 그러나 복잡한 제어 흐름, 재귀, 외부 라이브러리 호출 등을 포함하는 프로그램에서는 이러한 방법이 비효율적이거나 수렴이 어려울 수 있다.
변분 추론은 복잡한 목표 분포 p(x|y)를 더 단순한 파라미터화된 분포 q_θ(x) 로 근사하고, KL 발산을 최소화함으로써 최적의 θ 를 찾는다. 기존 변분 방법은 보통 공액(conjugate) 관계가 존재하는 경우에만 해석적 좌표 하강법을 적용할 수 있었으며, 비공액 모델에 대해서는 수식 유도가 복잡하고 자동화가 어려웠다.
논문은 이러한 한계를 극복하기 위해 “변분 프로그램”이라는 개념을 도입한다. 목표 프로그램을 그대로 실행하되, 각 ERP 호출 시 원래 파라미터 ψ_t 대신 변분 파라미터 θ_t 를 사용한다. 즉, p_t(x_t|ψ_t(h_t)) 대신 p_t(x_t|θ_t(h_t)) 로 샘플링한다. 이때 θ_t 는 프로그램 실행 중에 학습되는 파라미터이며, 변분 프로그램 자체가 무조건적인 확률 프로그램이 된다. 이렇게 하면 변분 분포 p_θ(x) 를 직접 시뮬레이션할 수 있어, 복잡한 제어 흐름을 그대로 보존하면서도 변분 근사를 수행할 수 있다.
목표 함수 L(θ) = E_{p_θ}
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기