안전하고 효율적인 오프‑폴리시 강화학습: Retrace(λ) 알고리즘

본 논문은 기존 오프‑폴리시 반환 기반 강화학습 방법들의 장단점을 통합해 새로운 알고리즘 Retrace(λ)를 제안한다. Retrace(λ)는 (1) 낮은 분산, (2) 행동 정책과 목표 정책의 차이에 관계없이 안전하게 학습, (3) 근접한 온‑폴리시 상황에서 전체 반환을 활용해 효율성을 극대화한다. 이론적으로 정책 평가와 제어 두 경우 모두 γ‑수축성을 보이며, GLIE 가정 없이도 Q*에 거의 확실히 수렴함을 증명한다. 또한 Watkins의…

저자: Remi Munos, Tom Stepleton, Anna Harutyunyan

본 논문은 오프‑폴리시(return‑based) 강화학습 알고리즘을 체계적으로 재조명하고, 기존 방법들의 장단점을 통합한 새로운 알고리즘 Retrace(λ)를 제안한다. 1. **배경 및 문제 정의** - 강화학습에서 업데이트 타깃을 Monte‑Carlo 반환과 부트스트랩 사이에서 선택하는 트레이드오프가 존재한다. 반환 기반 방법은 함수 근사와 결합했을 때 안정적이며 탐색의 효과를 빠르게 전파한다. 반면 부트스트랩 방식은 오프‑폴리시 데이터에 더 적합하지만, 반환을 활용하지 못한다. - 기존 오프‑폴리시 반환 기반 알고리즘으로는 Importance Sampling(IS), Tree‑Backup(TB(λ)), Qπ(λ)·Q*(λ) 등이 있다. IS는 분산이 크게 증가하고, TB(λ)는 근접한 온‑폴리시 상황에서 효율이 떨어지며, Qπ(λ)·Q*(λ)는 µ와 π가 충분히 가깝지 않으면 수렴을 보장하지 못한다. 2. **공통 연산자 형태** - 모든 알고리즘을 일반화된 연산자 R(Q) = Q + 𝔼_µ

안전하고 효율적인 오프‑폴리시 강화학습: Retrace(λ) 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기