깊은 피드포워드 네트워크를 위한 랜덤 워크 초기화

본 논문은 “깊은 피드포워드 네트워크(FFN)의 학습 난제인 기울기 소실·폭발 문제를 어떻게 완화할 수 있는가?”라는 질문에 답한다. 기존 연구는 주로 재귀 신경망(RNN)에서의 고유값 분석에 의존했으며, 동일한 가중치 행렬이 반복 적용되는 특성 때문에 기울기가 기하급수적으로 변한다는 점을 강조했다. 그러나 FFN에서는 각 층마다 서로 다른 무작위 가중치 행렬이 사용되므로, 기울기 전파는 서로 다른 랜덤 행렬들의 연속 곱으로 표현된다. 이 차이를 이용해 저자들은 기울기 노름의 로그가 무작위 보행(random walk) 과정을 따른다고 가정하고, 그 보행이 편향되지 않도록 스케일링 파라미터 g를 조정하는 “Random Walk Initialization”을 제안한다. ### 1. 이론적 모델링 FFN는 다음과 같은 형태로 정의된다. - 전방 전파: a_d = g W_d h_{d‑1} + b_d, h_d = f(a_d) - 역전파: δ_d = g ˜W_{d+1} δ_{d+1}, ˜W_d(i,j)=f′(a_d(i)) W_d(j,i) 여기서 δ_d는 손실 함수 E에 대한 a_d의 편미분이며, g는 전체 네트워크에 적용되는 스칼라 스케일링이다. 역전파 과정에서 δ_d의 제곱 노름은 |δ_d|² = g² z_{d+1} |δ_{d+1}|² 로 표현되며, z_d = ‖˜W_d δ_d‖²/‖δ_d‖²는 무작위 변수이다. 전체 깊이 D에 대해 기울기 비율 Z = |δ_0|²/|δ_D|² = g^{2D} ∏_{d=1}^D z_d 로 쓸 수 있다. 로그를 취하면 ln Z = D ln g² + ∑_{d=1}^D ln z_d 가 된다. 여기서 ∑ ln z_d는 D개의 독립적인 랜덤 변수들의 합이므로, 중심극한정리에 따라 정규분포에 가까워진다. 따라서 ln Z는 평균이 0에 가깝게 만들면 편향되지 않은 랜덤 워크가 된다. 이는 g를 적절히 선택하면 가능하다. ### 2. 최적 g의 도출 가정: ˜W_d는 i.i.d. 가우시안(평균 0, 분산 1/N)이며, δ_d는 단위 벡터와 독립적이다. 그러면 ˜W_d δ_d는 평균 0, 분산 1/N인 가우시안 벡터가 되고, 그 제곱 노름 z_d는 χ²_N/N 분포를 따른다. χ²_N의 평균은 N, 분산은 2N이므로, z_d의 평균은 1, 분산은 2/N이다. ln z_d를 z=1 근처에서 2차 테일러 전개하면 E

깊은 피드포워드 네트워크를 위한 랜덤 워크 초기화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기