보조 변수로 강화된 심층 생성 모델

본 논문은 기존 변분 오토인코더(VAE)의 한계를 보조 변수(a)를 도입해 완화하고, 이를 활용한 보조 깊이 생성 모델(ADGM)과 스킵 구조를 갖는 두 층 확장 모델(SDGM)을 제안한다. 실험 결과, MNIST, SVHN, NORB에서 반지도 학습 성능이 기존 최첨단 방법들을 앞섰으며, 학습 수렴 속도와 모델 표현력이 크게 향상됨을 확인하였다.

저자: Lars Maal{o}e, Casper Kaae S{o}nderby, S{o}ren Kaae S{o}nderby

본 논문은 심층 생성 모델, 특히 변분 오토인코더(VAE)의 변분 근사에 내재된 평균‑분산 가정의 한계를 극복하고자 보조 변수(auxiliary variable) a를 도입한다. 기존 VAE는 q(z|x)를 대각 가우시안으로 제한함으로써 복잡한 잠재 구조를 충분히 포착하지 못한다는 점을 지적하고, Agakov와 Barber(2004)의 보조 변수 아이디어를 차용해 p(x,z,a)=p(a|x,z)p(x,z) 형태의 생성 모델을 설계한다. 여기서 a는 생성 모델에 추가되지만, a를 적분하면 원래의 p(x,z)와 동일해 모델 자체는 변하지 않는다. 대신 변분 분포를 q(a,z|x)=q(a|x)q(z|a,x) 로 확장함으로써, z의 사후분포를 비가우시안, 다중모드 형태로 근사할 수 있다. 논문은 이 아이디어를 두 가지 모델에 적용한다. 첫 번째는 Auxiliary Deep Generative Model(ADGM)으로, a를 인코더 단계에만 두어 q(a|x)와 q(z|a,x)를 학습한다. 두 번째는 Skip Deep Generative Model(SDGM)으로, a와 x 사이의 방향을 뒤바꾸어 a를 생성 과정에도 포함시킨다(p(x|y,a,z)·p(a|y,z)·p(z)·p(y)). 두 모델 모두 동일한 5개의 신경망(보조 추론, 잠재 추론, 분류, 보조 생성, 데이터 생성)으로 구현되며, 각 네트워크는 다층 퍼셉트론 구조에 ReLU 활성화와 재파라미터화 트릭을 적용한다. 변분 하한식은 라벨이 있는 경우와 없는 경우를 구분해 정의한다. 라벨이 있는 데이터에 대해서는 log p(x,y)≥E_{q(a,z|x,y)}

보조 변수로 강화된 심층 생성 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기