롤아웃 샘플링을 통한 근사 정책 반복의 효율적 알고리즘과 복잡도 분석

본 논문은 연속 상태공간에서 정책을 그리드 형태로 커버링하고, 롤아웃 샘플을 할당하는 두 가지 가장 단순한 방법—고정 할당(Fixed)과 필요 기반 카운팅(Count)—의 표본 복잡도를 이론적으로 비교한다. Hölder 연속성 및 레베그 측도 가정 하에 Count 방식이 상태별 차이 Δπ(s) 에 따라 샘플 수를 조절함으로써 동일 정확도에 필요한 전체 롤아웃 수를 크게 줄일 수 있음을 증명한다.

저자: Christos Dimitrakakis, Michail G. Lagoudakis

본 논문은 정책 반복 과정에서 가치 함수를 직접 추정하지 않고, 시뮬레이터 기반 롤아웃을 이용해 행동‑가치 Qπ(s,a) 를 근사하고 이를 분류기 학습에 활용하는 근사 정책 반복(API) 프레임워크를 다룬다. 기존 연구에서는 정책 개선을 위해 상태공간을 균등 격자로 커버링하고, 각 격자점마다 모든 가능한 행동에 대해 동일한 수의 롤아웃을 수행하는 고정 할당(Fixed) 방식을 사용했다. 그러나 이러한 방식은 행동 가치 차이가 명확히 드러나는 상태에서도 과도한 샘플을 소모한다는 비효율성을 가지고 있었다. 논문은 이 문제를 해결하기 위해 두 가지 가장 단순한 샘플 할당 전략을 비교한다. 첫 번째는 기존의 Fixed 방식이며, 두 번째는 “Counting” 방식이다. Counting 방식은 각 상태 s에 대해 현재까지 얻은 Q̂π(s,a) 로부터 최우수 행동 a*와 두 번째 최우수 행동 사이의 차이 Δ̂π(s) 를 추정한다. Δ̂π(s) 가 충분히 크면(즉, 최우수 행동이 확신 있게 결정되면) 추가 롤아웃을 중단하고 해당 상태를 샘플 풀에서 제거한다. 반대로 Δ̂π(s) 가 작아 불확실성이 큰 경우에만 추가 롤아웃을 진행한다. 이러한 전략을 이론적으로 정당화하기 위해 논문은 네 가지 핵심 가정을 제시한다. 1. **Bounded finite‑dimension state space (Assumption 1)**: 상태공간 S 가

롤아웃 샘플링을 통한 근사 정책 반복의 효율적 알고리즘과 복잡도 분석

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기