미니배치에 강인한 라티스 기반 확률적 경사 샘플링

본 논문은 기존 확률적 경사 라그랑주 동역학(SGLD)의 미니배치 민감성을 극복하기 위해 라티스 기반 이산화 기법을 적용한 Stochastic Gradient Lattice Random Walk(SGLRW)를 제안한다. 오프‑다이애곤 요소에만 잡음이 들어가도록 설계해 작은 배치에서도 안정적인 샘플링을 보장하며, 이론적 평균제곱오차(MSE) 상한을 통해 SGLD보다 더 작은 공분산 오차를 가짐을 증명한다. 실험에서는 베이지안 회귀·분류, 대규모 …

저자: ** - *첫 번째 저자*: 이름 미공개 (예: 김민수) – 소속: 한국과학기술원(KAIST) - *공동 저자*: 이름 미공개 (예: 이지은) – 소속: 스탠포드 대학교 - *기타 저자*: 이름 미공개 (예: 박성현, 마이클 존슨) – 소속: 구글 리서치, MIT 등 *(실제 논문에 명시된 저자 정보를 기반으로 교체 필요)* --- **

미니배치에 강인한 라티스 기반 확률적 경사 샘플링
본 논문은 확률적 경사 마코프 연쇄(MCMC) 방법 중 가장 널리 쓰이는 Stochastic Gradient Langevin Dynamics(SGLD)가 미니배치 크기에 매우 민감하고, 특히 그래디언트 잡음이 중량 꼬리 형태일 때 샘플링이 불안정해지는 문제를 해결하고자 한다. 이를 위해 저자들은 Lattice Random Walk(LRW)라는 최근 제안된 라티스 기반 이산화 기법을 확률적 경사 상황에 적용한 Stochastic Gradient Lattice Random Walk(SGLRW)를 고안한다. LRW는 연속적인 가우시안 노이즈 대신 각 파라미터 차원마다 고정된 크기의 이진(±√(2δ)) 혹은 삼진 업데이트를 수행한다. 이때 업데이트 방향은 현재 파라미터와 미니배치 기반 그래디언트 d∂_i U(θ;B) 에 의해 확률적으로 결정되며, 확률식은 |δ·d∂_i U| ≤ 1 조건 하에 정의된다. SGLRW의 핵심 설계는 잡음이 오프‑다이애곤(비대각) 요소에만 들어가도록 하는 것이다. 즉, 미니배치 그래디언트 ζ(θ;B)의 공분산 G(θ) 가 전체 업데이트 공분산 행렬의 비대각 성분으로만 반영되고, 대각 성분은 항상 2δ·I 로 고정된다. 이 구조는 배치 크기가 작아도 파라미터가 한 번에 크게 튀는 현상을 방지하고, 작은 스텝 사이즈에서도 안정적인 마코프 체인을 유지한다. 이론적 분석에서는 Chen et al. (2015)의 평균제곱오차(MSE) 프레임워크를 확장한다. 목표는 테스트 함수 φ에 대한 포스터리어 기대값 \bar φ 와 샘플 평균 \hat φ 사이의 MSE 를 상한으로 제시하는 것이다. MSE는 (드리프트 오차)+(이산화 오차)+(공분산 오차) 세 항으로 분해되며, SGLRW와 SGLD는 전두와 이산화 항에서 동일한 형태를 갖는다. 차이는 공분산 항에 있다. Lemma 4.3에 따르면 SGLRW의 2차 오차 행렬 M_n 은 SGLD의 M_n 의 비대각 성분만을 그대로 물려받고, 대각 성분은 0 으로 고정된다. 따라서 E_cov_SGLRW ≤ E_cov_SGLD 가 성립하고, 비대각 성분이 존재할 경우 엄격히 작아진다. 이는 “미니배치 잡음이 파라미터 업데이트 크기에 직접적인 영향을 주지 않는다”는 직관과 일치한다. 실험은 네 가지 주요 영역에서 수행되었다. 첫 번째는 1차원 다중모달 가우시안 목표분포에 α‑stable(α=1.5) 잡음을 인위적으로 추가한 시뮬레이션이다. 배치 크기와 잡음 스케일을 변화시켰을 때, SGLD는 잡음이 커질수록 모드 사이를 오가며 발산하거나 수렴이 지연되었지만, SGLRW는 업데이트 크기가 고정돼 있어 안정적으로 목표분포를 탐색했다. 두 번째는 50차원 베이지안 선형 회귀 문제로, 다양한 배치 크기(64, 32, 8, 4)와 스텝 사이즈를 조합해 MSE 를 측정하였다. 결과는 Figure 3에 제시된 바와 같이, SGLRW는 특히 작은 배치(4)에서 공분산 오차가 크게 감소해 전체 MSE 가 현저히 낮았다. 세 번째는 대규모 텍스트 분류 작업으로, 사전학습된 대형 언어 모델(LLM)의 마지막 레이어에 베이지안 선형 헤드(프리티너)를 부착하고, 감성 분석 데이터셋에 적용하였다. 여기서도 SGLRW는 작은 배치에서도 정확도와 캘리브레이션(ECE) 지표에서 SGLD와 동등하거나 약간 우수한 성능을 보였다. 네 번째는 SGLD에 gradient clipping을 적용한 변형을 베이스라인으로 사용하였다. clipping은 큰 그래디언트를 제한해 어느 정도 안정성을 제공했지만, 중량 꼬리 잡음 상황에서는 여전히 발산 현상이 관찰되었으며, SGLRW와 비교했을 때 전반적인 MSE 가 높았다. 논문의 기여는 다음과 같다. (1) 라티스 기반 이산화를 확률적 경사 MCMC에 적용한 SGLRW 제안, (2) 기존 SGLD와 비교해 공분산 오차가 항상 작거나 같음을 보이는 MSE 이론적 상한 도출, (3) 다양한 실험을 통해 작은 배치와 중량 꼬리 잡음에서도 안정적인 샘플링을 실증, (4) gradient clipping 기반 SGLD 변형을 강력한 베이스라인으로 제시. 한계점으로는 라티스 업데이트가 이진/삼진 형태이기 때문에 파라미터 공간에서 매우 미세한 조정이 어려울 수 있다는 점이다. 또한 고차원(수천 차원) 모델에서 라티스 스텝 크기와 메모리 요구량을 최적화하는 방법에 대한 추가 연구가 필요하다. 저자들은 향후 하드웨어 가속(저전력 stochastic 회로)과 결합해 라티스 기반 샘플러를 실제 대규모 딥러닝 파이프라인에 적용하는 방향을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기