다단계 Lyapunov을 활용한 편향 SA의 유한시간 수렴 분석

본 논문은 마코프 잡음에 대한 완화된 “ergodic‑like” 가정을 전제로, 다단계 Lyapunov 함수를 설계해 편향된 확률 근사(SA) 알고리즘의 유한시간 평균제곱오차(MSE) 경계를 제공한다. 결과는 상수 학습률 하에서 TD(0)와 Q‑learning(선형 근사) 모두에 적용 가능하며, 비선형 근사, 일반적인 마코프 혼합, 초기 분포에 무관한 첫 번째 유한시간 오류 한계를 제시한다.

저자: Gang Wang, Bingcong Li, Georgios B. Giannakis

본 논문은 강화학습에서 널리 사용되는 TD‑learning과 Q‑learning을 포함한 편향된 확률 근사(SA) 알고리즘의 유한시간 수렴 특성을 체계적으로 분석한다. 연구는 세 가지 핵심 구성 요소를 중심으로 전개된다. 첫째, 일반적인 SA 형태 Θ_{k+1}=Θ_k+ε f(Θ_k,X_k) 에 대해 θ에 대한 전역 Lipschitz 연속성 및 선형 성장 제한을 가정한다(Assumption 1). 이는 기존 SA 이론에서 흔히 쓰이는 조건이며, f가 비선형일 경우에도 적용 가능하도록 설계되었다. 둘째, 연관된 결정론적 ODE \dotθ=f(θ) 의 전역 안정성을 보장하기 위해 두 번 미분 가능한 Lyapunov 함수 W(θ) 를 도입한다. W는 (6a‑c) 조건을 만족하는데, 이는 W가 θ=0을 유일한 전역 안정점으로 만들고, W의 그래디언트와 f 사이에 부정적인 내적 관계를 부여한다. 이러한 구조는 전통적인 Lyapunov 이론과 일치하면서도, 이후 다단계 확장에 필요한 기반을 제공한다. 세 번째이자 가장 혁신적인 부분은 잡음 시퀀스 {X_k} 에 대한 “ergodic‑like” 가정(Assumption 3)이다. 이 가정은 T개의 연속적인 그래디언트 추정 평균이 제한된 편향 σ(T;k)·L(‖θ‖+1) 이하로 수렴한다는 것을 요구한다. σ는 T가 커지거나 현재 시점 k 가 충분히 커질 때 0으로 수렴한다. 이 조건은 i.i.d. 샘플, 유한 상태 마코프 체인, 심지어 연속 시간 Ornstein‑Uhlenbeck 프로세스 등 다양한 확률 과정에 적용 가능하다. 기존 연구는 순간적인 편향을 직접 제어하거나, 마코프 체인의 믹싱이 충분히 진행된 후에만 분석을 수행했지만, 여기서는 평균 편향을 직접 다루어 보다 일반적인 상황을 포괄한다. 핵심 기법은 다단계 Lyapunov 함수 W′(k,Θ_k)=∑_{j=k}^{k+T-1}W(Θ_j(k,Θ_k)) 의 도입이다. T는 설계 파라미터로, 충분히 큰 T를 선택하면 평균 편향 σ(T;k) 를 충분히 억제할 수 있다. Proposition 1은 T 단계 뒤의 상태를 Θ_{k+T}=Θ_k+εT f(Θ_k)+g′(k,T,Θ_k) 형태로 표현하고, g′에 대한 기대값 경계 E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기