결정론적 시스템에서 효율적인 강화학습과 가치 함수 일반화

본 논문은 유한 시간 horizon을 갖는 결정론적 MDP에서 에피소드 기반 강화학습을 다루며, 가치 함수가 사전 정의된 가설 클래스에 포함될 경우 OCP(Optimistic Constraint Propagation) 알고리즘이 엘루더 차원만큼의 에피소드만 비최적 행동을 선택한다는 이론적 보장을 제시한다. 또한, 가설 클래스가 서로 겹치지 않는 집합들의 지시함수(span of indicator functions)일 때 비일치(agnostic) …

저자: Zheng Wen, Benjamin Van Roy

결정론적 시스템에서 효율적인 강화학습과 가치 함수 일반화
1. 서론 강화학습에서 효율적인 탐색은 샘플 복잡도를 결정하는 핵심 요소이다. 기존의 ε‑greedy, Boltzmann, knowledge‑gradient 등은 상태·행동 수가 커지면 지수적 regret을 초래한다. 특히, 실제 응용에서는 상태 공간이 매우 크기 때문에 단순 탐색 전략만으로는 실용적이지 않다. 본 논문은 이러한 문제를 해결하고자, 결정론적 유한‑horizon MDP에서 가치 함수 일반화를 동시에 고려한 새로운 알고리즘 OCP를 제안한다. 2. 문제 정의 및 기본 설정 시스템은 (S, A, H, F, R, S₀) 로 정의되는 결정론적 MDP이며, 매 에피소드는 H 단계로 구성된다. 에이전트는 상태·행동·보상 정보를 관측하면서 정책을 학습한다. 목표는 누적 보상의 regret을 최소화하는 것이며, 이를 위해 ε‑suboptimal sample complexity와 regret 정의를 도입한다. 3. 기존 탐색 방법의 비효율성 간단한 예시(그림 1)를 통해 Boltzmann 및 ε‑greedy 탐색이 최적 보상을 찾기 위해 2^{|S|‑1} 에피소드가 필요함을 보인다. 이는 탐색 효율성이 매우 낮다는 것을 의미한다. 4. OCP 알고리즘 설계 OCP는 다음과 같은 절차로 동작한다. - 가설 클래스 Q (예: 선형 결합, 지시함수 스팬)를 사전에 정의한다. - 각 (t, x, a) 쌍에 대해 현재까지 관측된 제약조건을 이용해 Q∈Q 중 가능한 상한 Q̅와 하한 Q̲을 계산한다. - 낙관적 상한 Q̅를 사용해 현재 단계에서 최적이라고 생각되는 행동을 선택한다(optimism‑in‑the‑face‑of‑uncertainty). - 선택한 행동과 관측된 보상을 통해 새로운 제약조건을 추가하고, Q̅, Q̲을 업데이트한다. 핵심은 ‘제약 전파’를 통해 이전 에피소드에서 얻은 정보가 미래 행동 선택에 직접적인 영향을 미치게 하는 것이다. 5. 이론적 결과 5.1 코히런트 경우( Q*∈Q ) - 엘루더 차원 dim_E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기