cs.LG 2026-03-29 0

상대 TD 학습의 안정성 및 민감도 분석

본 논문은 선형 함수 근사 하에서 상대 Temporal‑Difference (TD) 학습의 안정성을 이론적으로 규명하고, 베이스라인 분포 선택이 알고리즘 수렴에 미치는 영향을 분석한다. 특히 경험적 상태‑액션 분포를 베이스라인으로 사용할 때, 모든 할인 인자 γ∈

저자: Masoud S. Sakha, Rushikesh Kamalapurkar, Sean Meyn

본 논문은 강화학습에서 널리 사용되는 Temporal‑Difference (TD) 학습이 할인 인자 γ가 1에 가까워질수록 수렴이 급격히 느려지는 문제를 해결하고자, “Relative TD”라는 변형을 선형 함수 근사와 결합한 이론적 분석을 제공한다. 1. **배경 및 문제 정의** - MDP (X,U)와 정책 ϕ에 대해 Q‑함수 Q⋆는 Bellman 방정식 Q⋆(x,u)=c(x,u)+γE

상대 TD 학습의 안정성 및 민감도 분석

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기