변분 가우시안 프로세스 동적 시스템

본 논문은 고차원 시계열 데이터를 비선형적으로 차원 축소하고, 잠재 공간에 동적 사전(prior)을 학습하는 변분 가우시안 프로세스 모델(VGPDS)을 제안한다. 변분 하한을 이용해 잠재 변수 X를 근사적으로 마진화함으로써 모델 복잡도와 차원 수를 자동으로 조절하고, 수백만 차원의 영상 및 인간 동작 데이터를 효과적으로 처리한다.

저자: Andreas C. Damianou, Michalis K. Titsias, Neil D. Lawrence

본 논문은 고차원 시계열 데이터를 다루는 현대 머신러닝 과제에 대한 새로운 베이지안 접근법을 제시한다. 저자들은 먼저 기존의 Gaussian Process Latent Variable Model(GP‑LVM)을 동적 사전과 결합한 Gaussian Process Dynamical System(GP‑DS)의 한계를 지적한다. GP‑DS는 잠재 변수 X에 대해 MAP 추정을 수행하기 때문에, (i) 동적 사전의 하이퍼파라미터를 과적합 위험 없이 학습하기 어렵고, (ii) 잠재 차원 수를 모델이 스스로 결정하지 못한다는 문제가 있다. 이를 해결하기 위해 변분 베이지안 프레임워크를 도입한 Variational Gaussian Process Dynamical System(VGPDS)를 설계한다. 모델은 두 개의 독립적인 가우시안 프로세스를 사용한다. 첫 번째는 시간 t에 대한 Q 차원의 잠재 궤적 X(t)이며, 두 번째는 잠재 공간 X에 대한 D 차원의 매핑 함수 f(X)이다. 각각은 커널 함수 k_x와 k_f에 의해 정의되며, k_x는 Ornstein‑Uhlenbeck, RBF, Matern‑3/2, 주기적 커널 등 다양한 형태를 선택 가능하고, k_f는 ARD 스케일을 포함한 RBF 커널을 사용한다. ARD는 불필요한 차원을 자동으로 0에 가깝게 만들며, 차원 수를 데이터에 맞게 조절한다. 변분 추론을 위해 inducing point 기법을 적용한다. M개의 가상 입력 X_u와 그에 대응하는 출력 u를 도입해 GP‑f의 복잡도를 O(M³)로 낮춘다. 변분 분포는 q(X)=∏_q N(μ_q, S_q)와 q(u)=∏_d N(m_d, S_u) 형태이며, 특히 S_q를 완전 공분산 행렬로 두어 데이터 포인트 간 상관관계를 보존한다. 변분 하한 F_v는 (i) 데이터 적합도와 (ii) KL 발산 두 항으로 구성되며, 모두 해석적으로 계산 가능하도록 정리된다. 파라미터 최적화는 변분 하한을 직접 최대화하는 방식으로 수행한다. 그러나 S_q와 μ_q는 O(N²)개의 자유도를 가지므로, 저자들은 Titsias와 Lawrence(2010)의 재파라미터화 기법을 차용해 Λ_q와 λ_q라는 대각 행렬만을 최적화 변수로 사용한다. 이렇게 하면 전체 변분 파라미터 수가 O(N)으로 감소하고, 최적화가 실용적인 규모로 확장된다. 다중 시퀀스 상황도 자연스럽게 처리한다. 서로 독립적인 S개의 시퀀스가 있을 경우, 각 시퀀스마다 별도의 시간 커널 블록을 갖는 K_t를 구성하고, 잠재 매핑 f는 모든 시퀀스에 공유한다. 이는 공통된 동적 구조를 학습하면서도 시퀀스별 특성을 보존한다. 예측 및 복원 단계에서는 새로운 시간 벡터 t*에 대해 잠재 변수 X*와 매핑 F*를 변분적으로 추정한다. q(X*)는 GP 사전의 조건부 분포와 학습된 q(X)를 결합해 Gaussian 형태로 얻으며, q(F*|X*)는 inducing point를 이용해 정확히 계산된다. 최종 예측 p(Y*|Y, t, t*)는 비가우시안 적분이지만, 평균과 공분산을 분석적으로 구할 수 있어 실용적인 추정이 가능하다. 실험에서는 두 가지 도메인을 선택했다. 첫 번째는 CMU 모션 캡처 데이터로, 2,613개의 59차원 프레임을 31개의 훈련 시퀀스로 나누어 사용했다. VGPDS는 초기 9차원 설정에서 ARD를 통해 실제 필요한 차원을 3~4개로 자동 축소했으며, Matern 커널은 3차원, RBF 커널은 4차원을 유지했다. 테스트에서는 몸통 부분만 혹은 다리 부분만 제공했을 때, VGPDS가 기존 MAP 기반 GP‑DS, BLV, 그리고 k‑NN보다 현저히 낮은 재구성 오류를 기록했다. 두 번째 실험은 고해상도 비디오 시퀀스이다. 저자들은 원시 픽셀값(최대 1,000,000 차원)을 그대로 입력으로 사용해 VGPDS가 수백 프레임을 학습하도록 했다. 테스트에서는 각 프레임의 40~50% 픽셀을 마스킹하고 복원했으며, 평균 제곱 오차(MSE)가 k‑NN(최적 k)보다 크게 개선되었다. 또한, 학습된 잠재 공간에서 새로운 시퀀스를 샘플링해 자연스러운 동영상 클립을 생성함으로써 생성 모델로서의 가능성을 입증했다. 전체적으로 VGPDS는 (1) 변분 마진화를 통해 잠재 변수의 불확실성을 정량화하고, (2) ARD와 변분 하한을 이용해 차원 수와 동적 사전 파라미터를 자동 선택하며, (3) inducing point와 재파라미터화 기법을 통해 O(N³) → O(N) 복잡도로 확장성을 확보한다는 점에서 기존 GP‑DS와 MAP 기반 방법들을 크게 능가한다. 이는 로봇 공학, 생물학, 컴퓨터 비전 등 고차원 시계열을 다루는 다양한 분야에 실용적인 베이지안 동적 모델링 도구로 활용될 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기