반확률적 경사 하강법: S2GD의 이론과 실험
본 논문은 대규모 데이터셋의 평균 손실 함수를 최소화하기 위해 새로운 반확률적 경사 하강법(S2GD)을 제안한다. 한 에포크당 전체 그래디언트를 한 번 계산하고, 기하학적 분포에 따라 무작위 개수의 확률적 그래디언트를 수행한다. 조건수 κ와 목표 정확도 ε에 대해 전체 연산량은 O((κ/n)·log 1/ε) 또는 O((κ/ε)·log 1/ε) (단일 에포크)이며, 이는 기존 SVRG 대비 상수와 복잡도 면에서 개선된다. 실험에서는 n=10⁹, …
저자: Jakub Konev{c}ny, Peter Richtarik
본 논문은 대규모 데이터셋에서 평균 손실 함수를 최소화하는 문제 min_{x∈ℝ^d} f(x)= (1/n)∑_{i=1}^n f_i(x) 에 대해 새로운 최적화 알고리즘인 반확률적 경사 하강법(S2GD)을 제안하고, 이론적 분석과 실험을 통해 기존 방법들과 비교한다.
1. **배경 및 동기**
- 전통적인 전역 경사 하강법(GD)은 매 반복마다 전체 데이터에 대한 정확한 그래디언트를 계산해야 하므로 O(nd) 비용이 든다.
- 확률적 경사 하강법(SGD)은 무작위 샘플 하나만 사용해 O(d) 비용으로 업데이트하지만, 그래디언트 분산이 커져 수렴 속도가 느려진다.
- 최근 SVRG, SAG, SDCA 등은 그래디언트 분산을 감소시켜 선형 수렴을 달성했지만, 메모리 요구량이나 상수 팩터에서 한계가 있다.
2. **S2GD 알고리즘 설계**
- 매 에포크 j 시 전체 데이터에 대한 정확한 그래디언트 g_j = (1/n)∑_{i=1}^n ∇f_i(x_j) 를 계산한다.
- 내부 루프에서 무작위 샘플 i 를 선택하고, 현재 점 y_{j,t} 에 대해 ∇f_i(y_{j,t}) − ∇f_i(x_j) 를 추가해 g_j 를 보정한다. 이렇게 하면 기대값이 현재 점의 전체 그래디언트와 일치한다.
- 내부 반복 횟수 t_j 는 기하학적 분포 P(t)= (1−νh)^{m−t} / β 에 따라 랜덤하게 결정된다. 여기서 ν∈
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기