확률적 경사 하강법을 이용한 LQR 정책 기울기 설계

본 논문은 선형 이차 레귤레이터(LQR) 문제에 대해 데이터 기반 정책 기울기(Policy Gradient) 방법을 설계하기 위해 확률적 경사 하강법(SGD) 프레임워크를 도입한다. 시스템 모델을 직접 식별하는 간접 방식과 비용 함수를 직접 평가해 기울기를 근사하는 제로차(zeroth‑order) 방식을 각각 제안하고, 두 방법을 편향된 확률적 그라디언트 오라클로 모델링한다. 편향과 분산에 대한 충분조건을 도출해 SGD가 최적 정책으로 수렴함을…

저자: Bowen Song, Simon Weissmann, Mathias Staudigl

본 논문은 선형 이차 레귤레이터(LQR) 문제에 대한 데이터‑드리븐 정책 기울기 방법을 확률적 경사 하강법(SGD) 프레임워크 안에서 체계적으로 설계한다. 기존 연구는 대부분 정확한 시스템 모델을 가정하거나, 인위적인 잡음 모델을 도입해 그라디언트의 불확실성을 분석했지만, 실제 데이터에서 발생하는 편향과 분산을 동시에 고려한 분석은 부족했다. 저자는 이를 보완하기 위해 두 가지 그라디언트 추정 방식을 제안한다. 1. **간접(Indirect) 방식** - 시스템 행렬 A, B 를 recursive least squares(RLS) 로 온라인 식별한다. 초기 추정값 ˆθ₀와 공분산 행렬 H₀ 를 설정하고, 매 단계마다 입력 uₜ = Kⱼ xₜ + eₜ (eₜ는 탐색 잡음) 로 데이터를 수집한다. - RLS 업데이트는 (16a)-(16b) 식에 따라 수행되며, 수집된 데이터가 누적될수록 추정 오차 Δθₙ =

확률적 경사 하강법을 이용한 LQR 정책 기울기 설계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기