전방·후방 교란을 고려한 확률적 경사 하강법 수렴 이론

본 논문은 딥러닝 등 복합 연산 그래프에서 전방과 후방 계산에 동시에 발생하는 교란이 SGD의 수렴에 미치는 영향을 체계적으로 분석한다. 교란이 연산 단계마다 기하급수적으로 증폭되는 메커니즘을 밝히고, 비볼록 및 Polyak‑Łojasiewicz(PL) 조건을 만족하는 함수에 대해 수렴 속도와 조건을 정량화한다. 또한, 실험을 통해 “gradient spike” 현상을 이론적으로 설명한다.

저자: Boao Kong, Hengrui Zhang, Kun Yuan

전방·후방 교란을 고려한 확률적 경사 하강법 수렴 이론
**1. 서론 및 동기** 논문은 복합 연산 그래프 \(F(x;w)=y_N\) 에 대해, 각 연산자 \(f_i\) 가 입력 \(y_{i-1}\) 와 파라미터 \(w_i\) 를 받아 중간 출력 \(y_i\) 를 생성하는 구조를 고려한다. 딥 뉴럴 네트워크, 유한 시간 최적화, 선형‑이차 제어 등 다양한 실제 문제를 예시로 제시하고, 이러한 시스템에서 전방과 후방 계산에 동시에 발생하는 수치적·하드웨어적 교란이 존재함을 강조한다. 기존 연구는 주로 가중치 그래디언트에만 독립적인 잡음을 가정했지만, 실제 구현에서는 중간 텐서와 중간 그래디언트 자체가 오염될 수 있다. **2. 관련 연구** 전통적인 SGD 분석, 혼합 정밀도 학습, 압축 통신, 오류‑내성 학습 등에 대한 기존 문헌을 정리하고, 이들 연구가 교란을 “첨가형(additive)”으로만 다루어 연산 단계 간 상호작용을 무시한다는 점을 지적한다. **3. 사전 지식 및 가정** - 텐서 연산자 노름 \(\|\cdot\|_{op}\) 과 3‑차 텐서의 연산자 노름을 정의한다. - 각 연산자 \(f_i\) 는 Lipschitz 연속이며, Jacobian \(\nabla_1 f_i\)와 \(\nabla_2 f_i\) 의 노름을 각각 \(L_i\) 와 \(G_i\) 로 제한한다. - 교란 \(δ_i(t), ε_i(t)\) 는 평균 0, 유한 2‑모멘트를 갖는 독립(또는 약한 의존) 확률 변수이며, 전방·후방 교란의 상한을 각각 \(\sigma_δ, \sigma_ε\) 로 표기한다. **4. 오차 전파 분석** 전방 단계에서 \(δ_i\) 가 누적되어 \(\tilde y_i = f_i(\tilde y_{i-1}, w_i)+δ_i\) 가 된다. 후방 단계에서는 \(ε_i\) 가 \(\tilde v_{i-1}= \nabla_1 f_i(\tilde y_{i-1}, w_i)^\top \tilde v_i + ε_i\) 에 더해진다. 저자는 수학적 귀납법을 이용해, 한 스텝 내에서 최종 파라미터 그래디언트 \(\tilde u_i\) 가 원래 그래디언트 \(u_i\) 에 대해 \

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기