베이시안 변분 추론의 성능 격차, 프라이스 그래디언트가 만든 차이

본 논문은 베이시안 변분 추론에서 Wasserstein VI와 Black‑Box VI가 보이는 수렴 속도 차이가 기하학적 접근법이 아니라, WVI가 사용하던 2차 정보(프라이스 그래디언트) 때문임을 밝힌다. 동일한 프라이스 그래디언트를 BBVI에 적용하면 이론적 복잡도가 동일해지며, 반대로 WVI에 재파라미터화 그래디언트를 적용하면 적용 범위가 넓어진다. 실험을 통해 Hessian 기반 그래디언트가 성능 향상의 주요 원인임을 확인한다.

저자: Kyurae Kim, Qiang Fu, Yi-An Ma

본 논문은 목표 분포 π의 비정규화된 로그밀도만을 이용해 근사하는 변분 추론(VI) 방법을 연구한다. 기존에는 측도 공간(Bures‑Wasserstein 공간)에서 최적화하는 Wasserstein VI(WVI)와 파라미터 공간에서 최적화하는 Black‑Box VI(BBVI)가 각각 장단점을 가지고 있다고 알려졌다. 특히 Gaussian 변분 가족에 대해 WVI는 기존 BBVI보다 더 나은 이론적 수렴 복잡도를 보였으며, 이는 WVI가 자연스러운 W₂ 거리 메트릭을 사용하기 때문이라고 여겨졌다. 그러나 저자들은 이 격차가 실제로는 WVI가 사용한 특정 그래디언트 추정기, 즉 프라이스 정리를 이용한 Hessian‑based 그래디언트에 기인한다는 사실을 밝혀냈다. 프라이스 정리는 Gaussian 분포에 대해 ∇_Σ E

베이시안 변분 추론의 성능 격차, 프라이스 그래디언트가 만든 차이

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기