깊은 피드포워드 네트워크를 위한 랜덤 워크 초기화
본 논문은 매우 깊은 피드포워드 신경망(FFN)에서 역전파 시 발생하는 기울기 소실·폭발 문제를, 각 층마다 서로 다른 무작위 행렬을 곱하는 과정으로 모델링한다. 로그 norm이 무작위 보행을 이루도록 스케일링 파라미터 g를 선택하면, 기울기 로그 norm의 평균은 0에 가깝게 유지되고 분산은 깊이에 비례해 선형적으로 증가한다. 최적 g는 층 폭 N에 따라 g≈exp(−1/(2N))(선형) 혹은 g≈√2·exp(−1/(4·max(N,6)))(R…
저자: David Sussillo, L.F. Abbott
본 논문은 “깊은 피드포워드 네트워크(FFN)의 학습 난제인 기울기 소실·폭발 문제를 어떻게 완화할 수 있는가?”라는 질문에 답한다. 기존 연구는 주로 재귀 신경망(RNN)에서의 고유값 분석에 의존했으며, 동일한 가중치 행렬이 반복 적용되는 특성 때문에 기울기가 기하급수적으로 변한다는 점을 강조했다. 그러나 FFN에서는 각 층마다 서로 다른 무작위 가중치 행렬이 사용되므로, 기울기 전파는 서로 다른 랜덤 행렬들의 연속 곱으로 표현된다. 이 차이를 이용해 저자들은 기울기 노름의 로그가 무작위 보행(random walk) 과정을 따른다고 가정하고, 그 보행이 편향되지 않도록 스케일링 파라미터 g를 조정하는 “Random Walk Initialization”을 제안한다.
### 1. 이론적 모델링
FFN는 다음과 같은 형태로 정의된다.
- 전방 전파: a_d = g W_d h_{d‑1} + b_d, h_d = f(a_d)
- 역전파: δ_d = g ˜W_{d+1} δ_{d+1}, ˜W_d(i,j)=f′(a_d(i)) W_d(j,i)
여기서 δ_d는 손실 함수 E에 대한 a_d의 편미분이며, g는 전체 네트워크에 적용되는 스칼라 스케일링이다. 역전파 과정에서 δ_d의 제곱 노름은 |δ_d|² = g² z_{d+1} |δ_{d+1}|² 로 표현되며, z_d = ‖˜W_d δ_d‖²/‖δ_d‖²는 무작위 변수이다. 전체 깊이 D에 대해 기울기 비율 Z = |δ_0|²/|δ_D|² = g^{2D} ∏_{d=1}^D z_d 로 쓸 수 있다.
로그를 취하면 ln Z = D ln g² + ∑_{d=1}^D ln z_d 가 된다. 여기서 ∑ ln z_d는 D개의 독립적인 랜덤 변수들의 합이므로, 중심극한정리에 따라 정규분포에 가까워진다. 따라서 ln Z는 평균이 0에 가깝게 만들면 편향되지 않은 랜덤 워크가 된다. 이는 g를 적절히 선택하면 가능하다.
### 2. 최적 g의 도출
가정: ˜W_d는 i.i.d. 가우시안(평균 0, 분산 1/N)이며, δ_d는 단위 벡터와 독립적이다. 그러면 ˜W_d δ_d는 평균 0, 분산 1/N인 가우시안 벡터가 되고, 그 제곱 노름 z_d는 χ²_N/N 분포를 따른다. χ²_N의 평균은 N, 분산은 2N이므로, z_d의 평균은 1, 분산은 2/N이다.
ln z_d를 z=1 근처에서 2차 테일러 전개하면 E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기