신경망 최적화를 위한 크로네커 분해 근사 곡률

본 논문은 신경망의 피셔 정보 행렬을 층별 블록으로 나누고, 각 블록을 두 개의 작은 행렬의 크로네커 곱으로 근사하는 K‑FAC(Kronecker‑Factored Approximate Curvature) 방법을 제안한다. 이 근사는 자연기울기(Natural Gradient)를 효율적으로 계산하게 해 주며, SGD‑Momentum 대비 몇 배의 연산 비용만으로도 훨씬 빠른 수렴을 보인다.

저자: James Martens, Roger Grosse

본 논문은 신경망 학습에서 가장 효율적인 2차 최적화 방법 중 하나인 자연기울기(Natural Gradient)를 실용적으로 구현하기 위한 새로운 접근법인 Kronecker‑Factored Approximate Curvature(K‑FAC)를 제안한다. 자연기울기는 파라미터 공간을 KL‑다이버전스라는 정보 기하학적 거리로 측정해, 동일한 모델 변화량을 얻기 위해 필요한 파라미터 변화를 최소화한다. 그러나 실제 피셔 정보 행렬은 수백만 차원의 파라미터에 대해 매우 큰 규모이며, 직접 역행렬을 구하거나 저장하는 것이 불가능하다. 기존 방법으로는 대각선 근사, 저‑랭크 근사, 혹은 Hessian‑Free와 같은 CG 기반 접근법이 있었지만, 각각 계산 비용이 높거나 근사 정확도가 떨어지는 문제가 있었다. K‑FAC은 두 단계의 근사 전략을 통해 이 문제를 해결한다. 첫 번째 단계에서는 피셔 행렬을 층별 블록으로 나누고, 각 블록을 두 개의 작은 행렬의 크로네커 곱으로 근사한다. 구체적으로, 층 \(i\)와 \(j\) 사이의 블록 \(F_{i,j}\)는 전방 활성값 \(\bar a_{i-1}\)와 역전파된 그래디언트 \(g_i\)의 공분산 행렬 \(\bar A_{i-1,j-1}=E

신경망 최적화를 위한 크로네커 분해 근사 곡률

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기