반확률적 경사 하강법: S2GD의 이론과 실험

본 논문은 대규모 데이터셋의 평균 손실 함수를 최소화하기 위해 새로운 반확률적 경사 하강법(S2GD)을 제안한다. 한 에포크당 전체 그래디언트를 한 번 계산하고, 기하학적 분포에 따라 무작위 개수의 확률적 그래디언트를 수행한다. 조건수 κ와 목표 정확도 ε에 대해 전체 연산량은 O((κ/n)·log 1/ε) 또는 O((κ/ε)·log 1/ε) (단일 에포크)이며, 이는 기존 SVRG 대비 상수와 복잡도 면에서 개선된다. 실험에서는 n=10⁹, …

저자: Jakub Konev{c}ny, Peter Richtarik

본 논문은 대규모 데이터셋에서 평균 손실 함수를 최소화하는 문제 min_{x∈ℝ^d} f(x)= (1/n)∑_{i=1}^n f_i(x) 에 대해 새로운 최적화 알고리즘인 반확률적 경사 하강법(S2GD)을 제안하고, 이론적 분석과 실험을 통해 기존 방법들과 비교한다. 1. **배경 및 동기** - 전통적인 전역 경사 하강법(GD)은 매 반복마다 전체 데이터에 대한 정확한 그래디언트를 계산해야 하므로 O(nd) 비용이 든다. - 확률적 경사 하강법(SGD)은 무작위 샘플 하나만 사용해 O(d) 비용으로 업데이트하지만, 그래디언트 분산이 커져 수렴 속도가 느려진다. - 최근 SVRG, SAG, SDCA 등은 그래디언트 분산을 감소시켜 선형 수렴을 달성했지만, 메모리 요구량이나 상수 팩터에서 한계가 있다. 2. **S2GD 알고리즘 설계** - 매 에포크 j 시 전체 데이터에 대한 정확한 그래디언트 g_j = (1/n)∑_{i=1}^n ∇f_i(x_j) 를 계산한다. - 내부 루프에서 무작위 샘플 i 를 선택하고, 현재 점 y_{j,t} 에 대해 ∇f_i(y_{j,t}) − ∇f_i(x_j) 를 추가해 g_j 를 보정한다. 이렇게 하면 기대값이 현재 점의 전체 그래디언트와 일치한다. - 내부 반복 횟수 t_j 는 기하학적 분포 P(t)= (1−νh)^{m−t} / β 에 따라 랜덤하게 결정된다. 여기서 ν∈

반확률적 경사 하강법: S2GD의 이론과 실험

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기