단순체 유클리드 변환으로 구현하는 완전 공액 다중 클래스 가우시안 프로세스
본 논문은 확률 단순체 위의 클래스 확률을 Aitchison 기하학의 이소메트릭 로그비율(ILR) 변환을 이용해 유클리드 공간으로 매핑함으로써, 다중 클래스 분류 문제를 K‑1 차원의 가우시안 프로세스 회귀 문제로 전환한다. 변환 후 가우시안 likelihood를 적용하면 완전 공액(conjugate) 추론이 가능해지며, 별도의 근사나 보조 변수를 필요로 하지 않는다. 또한 변환 과정에서 정의된 분산 σ²를 Aitchison 거리 기반으로 선택…
저자: Bernardo Williams, Harsha Vardhan Tetali, Arto Klami
본 논문은 다중 클래스 분류에서 흔히 사용되는 소프트맥스 링크와 독립적인 K개의 잠재 함수가 만드는 비공액 구조를 탈피하고, 확률 단순체(Δ^{K‑1}) 위에 정의된 클래스 확률을 Aitchison 기하학에 기반한 이소메트릭 로그비율(ILR) 변환을 통해 ℝ^{K‑1}의 유클리드 공간으로 일대일 매핑한다는 새로운 프레임워크를 제시한다. ILR 변환 φ는 Helmert 행렬 H와 로그 연산을 결합해 φ(y)=H·log y 로 정의되며, 역변환은 φ⁻¹(z)=softmax(Hᵀz) 로 구현된다. 이 변환은 단순체 내부의 Aitchison 거리 d_A와 ℝ^{K‑1}의 Euclidean 거리 ‖·‖₂를 정확히 일치시키는 등거리(isometry) 특성을 갖는다.
이를 기반으로 저자들은 각 레이블 c=k 를 부드러운 원-핫 벡터 μ(k)=λ e_k+(1‑λ) 1_K/K 로 매핑하고, 이를 φ에 적용해 잠재 목표 m(k)=φ(μ(k)) 를 얻는다. 여기서 λ∈(0,1) 은 클래스 중심을 단순체 내부에 위치시키는 스무딩 파라미터이며, 실험에서는 검증셋을 통해 선택한다. 이후 관측값 z_i는 Gaussian likelihood N(m(k),σ²I) 로 모델링되며, σ²는 클래스 간 겹침을 제어하는 중요한 하이퍼파라미터이다. 논문은 ILR 변환이 등거리이므로 m(k) 사이의 최소 거리 δ= min_{k≠ℓ}‖m(k)−m(ℓ)‖₂ 를 Aitchison 거리와 동일하게 계산하고, 이를 이용해 σ² ≤ δ²·z_{1‑ε/D}² (z_{q}=Φ^{-1}(q)) 라는 충분조건을 제시한다. 이 조건을 만족하면 각 Gaussian 컴포넌트가 서로 거의 겹치지 않아, 라벨에 대한 확률적 혼합이 최소화된다.
학습 단계에서는 GP prior f(·)∼GP(0,K_θ) 를 ℝ^{D} (D=K‑1) 차원에 두고, 관측값 z_i와의 Gaussian likelihood를 결합한다. 이때 전체 모델은 표준 다출력 GP 회귀와 동일한 형태가 되므로, 정확한 공액 추론이 가능하고, marginal likelihood는
log p(z|θ)=−½∑_{d=1}^{D} z^{(d)ᵀ}(K_N+σ²I)^{-1}z^{(d)} − (D/2) log|K_N+σ²I| + const
와 같이 닫힌 형태로 계산된다. 하이퍼파라미터 θ와 σ²는 이 marginal likelihood를 최대화하거나, σ²는 위의 이론적 상한값을 직접 사용한다.
예측 시에는 테스트 입력 x*에 대해 잠재 평균 μ*와 공분산 Σ* 를 구하고, 다수의 샘플 f*∼N(μ*,Σ*) 를 φ⁻¹ 로 역변환해 확률 벡터 π* 를 얻는다. Monte‑Carlo 평균 E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기