오프라인 강화학습 복잡성 Q 근사와 부분 커버리지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Q* 실현 가능성과 벨먼 완전성을 가정한 오프라인 강화학습에서, 부분 커버리지 상황이 샘플 효율성을 보장하지 못한다는 정보이론적 하한을 제시한다. 이를 넘어, 온라인 RL의 결정‑추정 계수를 모델‑프리 방식으로 확장한 새로운 복잡도 지표를 정의하고, 이를 기반으로 소프트 Q‑학습의 ε⁻² 샘플 복잡도, 저벨먼‑랭크 MDP의 오프라인 학습 가능성, 그리고 실용적인 CQL 알고리즘에 대한 일반적 분석을 제공한다.

상세 분석

논문은 먼저 Q*‑실현 가능성(Q*∈F)과 벨먼 완전성(

오프라인 강화학습 복잡성 Q 근사와 부분 커버리지

초록

상세 분석

댓글 및 학술 토론

의견 남기기