동적 외부 시스템 없이도 최적 추적을 가능하게 하는 적응형 제어

본 논문은 시간 불변 외부 시스템(엑소시스템) 없이 생성되는 임의의 참조 궤적을 최적적으로 추적할 수 있는 새로운 적응형 강화학습 기반 제어 방법을 제안한다. 핵심은 이동하는 예측 호라이즌에 대한 참조 궤적을 직접 포함하는 새로운 Q‑함수 설계이며, 이 구조를 이용해 효율적인 반복 학습 알고리즘을 도출하고 수렴성을 증명한다. 선형‑이차(LQ) 추적 문제에 대한 해석적 해와 실험을 통해 기존 엑소시스템 기반 방법보다 뛰어난 성능을 확인한다.

저자: Florian K"opf, Johannes Westermann, Michael Flad

동적 외부 시스템 없이도 최적 추적을 가능하게 하는 적응형 제어
본 논문은 강화학습(RL) 기반 모델‑프리 제어가 기존에 주로 “규제 문제”와 “시간 불변 외부 시스템(엑소시스템)으로부터 생성된 참조 신호”에만 적용되어 왔으며, 실제 응용 분야에서는 이러한 가정이 성립하지 않는 경우가 많다는 점을 지적한다. 특히 자율주행 차량이 도로를 따라 이동하거나 인간‑로봇 협업에서 로봇이 인간의 임의적인 움직임을 추적해야 하는 상황에서는 참조 궤적이 사전에 정의된 동적 모델에 의해 생성되지 않는다. 기존 방법은 매번 새로운 외부 시스템 모델에 맞춰 재학습해야 하는 비효율성을 가지고 있다. 이를 해결하기 위해 저자들은 **이동 호라이즌(Moving Horizon) 기반의 새로운 Q‑함수** 를 제안한다. 기존 Q‑함수 Q(x,u)는 현재 상태와 행동만을 입력으로 하지만, 제안된 Q‑함수는 Q(x,u,rₖ,…,rₖ₊ₙ) 형태로 현재와 미래 N 단계까지 알려진 참조 시퀀스를 직접 포함한다. 정의 1에 따라 이 Q‑함수는 현재 제어 입력 uₖ와 이후 최적 제어 입력 uₖ₊₁,…,uₖ₊ₖ를 고려한 Bellman‑like 식을 갖으며, 무한 호라이즌 할인 비용을 유지하면서도 이동 호라이즌 내의 참조를 반영한다. Lemma 1은 Q₀를 최소화하는 uₖ가 원래의 LQ 추적 비용 Jₖ를 최소화함을 증명한다. 즉, 문제 1(시스템 행렬 A, B가 미지인 상황에서 최적 제어 찾기)과 문제 2(새로운 Q‑함수를 이용한 최적 제어 찾기)가 동등함을 보인다. 이후 Theorem 1에서는 시스템 행렬 A, B가 알려졌다고 가정하고 Q₀의 **해석적 해** 를 도출한다. 결과는 Q₀ = ½ zₖᵀ H zₖ 형태이며, 여기서 zₖ는 상태·제어·참조 벡터, H는 (N+2)n+m 차원의 대칭 행렬이다. H는 블록 구조와 대칭성을 가지며, 이는 Q‑함수 파라미터화와 학습 알고리즘 설계에 핵심적인 역할을 한다. Corollary 1은 H를 이용해 최적 제어 법칙을 직접 구한다. uₖ* = –H_{uu}^{–1}

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기