베이시안 신경망의 대규모 편차와 특징 학습

1. 서론 베이시안 신경망은 불확실성 정량화와 정규화 측면에서 매력적인 프레임워크이지만, 폭이 무한대로 커지는 극한에서는 네트워크 출력이 고정된 가우시안 프로세스(NNGP) 혹은 신경망 접선 커널(NTK)으로 수렴한다는 것이 알려져 있다. 이러한 한계는 모델이 데이터에 따라 특징을 학습하는 능력을 상실하게 만든다. 저자들은 이러한 고정된 커널 한계를 넘어, 넓은 베이시안 신경망에서 실제로 지배적인 비정형(rare) 사건들을 포착하고자 한다. 2. 대규모 편차를 통한 변분 관점 폭 n이 커질 때, 네트워크 출력 벡터 H_n = (h_θ(x))_{x∈X}를 1/√n 스케일링하면, 확률이 exp{-n I(h)} 형태로 감소하는 레이트 함수 I(h)가 정의된다. 이는 Cramér 정리와 Varadhan’s Lemma에 기반한 대규모 편차 원리이다. 사전 레이트 I_prior(h)와 데이터 손실 L(h)를 합하면 사후 레이트 I_post(h)=I_prior(h)+L(h)+const가 된다. 이 변분식은 베이시안 사후가 함수 공간에서 복합적인 복잡도와 데이터 적합성을 동시에 최소화한다는 직관을 제공한다. 3. 가우시안 프로세스와 비교 고정된 GP 사전을 고려하면, 레이트 함수는 RKHS 노름 ‖h‖_κ^2/2 로 표현된다. 사후 레이트는 ‖h‖_κ^2/2 + (1/2)∑_{i∈D}(h(x_i)-y_i)^2 로, 전통적인 GP 회귀와 동일한 형태가 된다. 여기서 MAP 예측은 GP 평균과 일치한다. 4. 넓은 가우시안 신경망에서의 레이트 함수 깊은 전완전 연결망을 가정하고, 각 층의 경험적 커널 K^{(ℓ)}_n을 정의한다. 폭이 무한대로 갈 때 K^{(ℓ)}_n은 NNGP 커널 κ^{(ℓ)}_0 로 수렴한다. 그러나 대규모 편차 관점에서는 K^{(ℓ)}가 κ^{(ℓ)}_0에서 벗어날 경우 비용이 누적된다. 구체적으로, 각 층에 대해 레이트 I^{(ℓ)}(κ^{(ℓ)}) = inf_{κ^{(ℓ‑1)}}

베이시안 신경망의 대규모 편차와 특징 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기