무거운 꼬리 잡음에서도 빠르게 수렴하는 Muon 최적화기

본 논문은 비볼록 Hölder‑스무스 경험위험(ERM)을 최소화하는 과정에서, p‑분산이 제한된 무거운 꼬리 잡음 하에 Muon 옵티마이저가 미니배치 SGD보다 더 빠르게 정상점에 수렴함을 이론적으로 증명한다. 핵심은 Stiefel 다양체 위에 투영된 직교화 그라디언트를 이용해 탐색 방향을 구성하고, 일반화된 하강 보조정리를 통해 수렴 속도와 확률적 수렴성을 분석한 것이다.

저자: Hideaki Iiduka

본 논문은 현대 딥러닝 학습에서 흔히 발생하는 무거운 꼬리(stochastic heavy‑tailed) 잡음 하에, 비볼록 Hölder‑스무스 경험위험(ERM) 최적화 문제를 다루는 새로운 이론적 프레임워크를 제시한다. 먼저, 경험위험 f(W)=\frac{1}{N}\sum_{i=1}^N f_i(W) 를 정의하고, 각 손실 함수 f_i가 ν∈(0,1]와 상수 L_i>0을 갖는 L_i‑Hölder‑스무스 조건을 만족한다는 가정을 둔다. 이는 ‖∇f_i(W₁)−∇f_i(W₂)‖_F ≤ L_i‖W₁−W₂‖_F^ν 형태의 일반화된 Lipschitz 연속성을 의미한다. 다음으로, stochastic gradient ∇f_ξ(W) 가 (i) 편향이 없고 (ii) p‑분산 V_p

무거운 꼬리 잡음에서도 빠르게 수렴하는 Muon 최적화기

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기