가치‑기울기 기반 강화학습: 탐색 없이 최적 궤적을 찾는 새로운 패러다임

본 논문은 연속 상태·액션을 갖는 결정론적 에피소드 제어 문제에서 가치 함수의 **기울기(값‑기울기)** 를 직접 학습함으로써 탐색 없이도 지역 최적 궤적을 찾을 수 있음을 보인다. 값‑기울기 학습(VGL)이 값 자체를 학습하는 전통적 방법(VL)보다 학습 효율이 수십 배에서 수천 배까지 크게 향상됨을 실험적으로 입증하고, VGL과 정책‑기울기 학습(PGL) 사이의 수학적 동등성을 증명해 수렴성을 확보한다. 또한 잔차‑기울기와 전통적 actor…

저자: Michael Fairbank

가치‑기울기 기반 강화학습: 탐색 없이 최적 궤적을 찾는 새로운 패러다임
본 논문은 연속 상태·액션 공간을 갖는 결정론적 에피소드 제어 문제를 대상으로, 전통적인 가치‑함수 기반 강화학습(VL)과는 다른 **가치‑기울기 학습(VGL)** 을 제안한다. 먼저, 상태 x∈ℝⁿ와 행동 a∈ℝᵐ을 입력으로 하는 두 개의 알려진 함수 f(x,a)와 r(x,a)를 정의하고, 에피소드가 끝나는 터미널 상태까지의 누적 보상 R을 공식화한다. 정책 π(x,w)는 파라미터 w에 의해 결정되며, greedy 정책은 Q(x,a,w)=r(x,a)+V(f(x,a),w)를 최대화하는 a를 선택한다. 전통적인 VL은 Bellman 방정식 Vₜ = rₜ + Vₜ₊₁을 전역적으로 만족시키려면 모든 상태에 대해 탐색(ε‑greedy 등)이 필요하다고 지적한다. 탐색 없이는 현재 정책이 고정된 궤적에 머물러 최적이 아닌 해에 수렴한다. 논문은 **값‑기울기 G(x,w)=∂V/∂x** 를 직접 학습 목표로 삼는다. 목표값‑기울기 G′(x,w)=∂V′/∂x는 λ‑return V′(x,w) = r(x,π(x,w)) + λ V′(f(x,π(x,w)),w) + (1‑λ) V(f(x,π(x,w)),w) 로 정의된다. λ∈

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기