전방·후방 교란을 고려한 확률적 경사 하강법 수렴 이론

**1. 서론 및 동기** 논문은 복합 연산 그래프 \(F(x;w)=y_N\) 에 대해, 각 연산자 \(f_i\) 가 입력 \(y_{i-1}\) 와 파라미터 \(w_i\) 를 받아 중간 출력 \(y_i\) 를 생성하는 구조를 고려한다. 딥 뉴럴 네트워크, 유한 시간 최적화, 선형‑이차 제어 등 다양한 실제 문제를 예시로 제시하고, 이러한 시스템에서 전방과 후방 계산에 동시에 발생하는 수치적·하드웨어적 교란이 존재함을 강조한다. 기존 연구는 주로 가중치 그래디언트에만 독립적인 잡음을 가정했지만, 실제 구현에서는 중간 텐서와 중간 그래디언트 자체가 오염될 수 있다. **2. 관련 연구** 전통적인 SGD 분석, 혼합 정밀도 학습, 압축 통신, 오류‑내성 학습 등에 대한 기존 문헌을 정리하고, 이들 연구가 교란을 “첨가형(additive)”으로만 다루어 연산 단계 간 상호작용을 무시한다는 점을 지적한다. **3. 사전 지식 및 가정** - 텐서 연산자 노름 \(\|\cdot\|_{op}\) 과 3‑차 텐서의 연산자 노름을 정의한다. - 각 연산자 \(f_i\) 는 Lipschitz 연속이며, Jacobian \(\nabla_1 f_i\)와 \(\nabla_2 f_i\) 의 노름을 각각 \(L_i\) 와 \(G_i\) 로 제한한다. - 교란 \(δ_i(t), ε_i(t)\) 는 평균 0, 유한 2‑모멘트를 갖는 독립(또는 약한 의존) 확률 변수이며, 전방·후방 교란의 상한을 각각 \(\sigma_δ, \sigma_ε\) 로 표기한다. **4. 오차 전파 분석** 전방 단계에서 \(δ_i\) 가 누적되어 \(\tilde y_i = f_i(\tilde y_{i-1}, w_i)+δ_i\) 가 된다. 후방 단계에서는 \(ε_i\) 가 \(\tilde v_{i-1}= \nabla_1 f_i(\tilde y_{i-1}, w_i)^\top \tilde v_i + ε_i\) 에 더해진다. 저자는 수학적 귀납법을 이용해, 한 스텝 내에서 최종 파라미터 그래디언트 \(\tilde u_i\) 가 원래 그래디언트 \(u_i\) 에 대해 \

전방·후방 교란을 고려한 확률적 경사 하강법 수렴 이론

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기