동적 외부 시스템 없이도 최적 추적을 가능하게 하는 적응형 제어

본 논문은 강화학습(RL) 기반 모델‑프리 제어가 기존에 주로 “규제 문제”와 “시간 불변 외부 시스템(엑소시스템)으로부터 생성된 참조 신호”에만 적용되어 왔으며, 실제 응용 분야에서는 이러한 가정이 성립하지 않는 경우가 많다는 점을 지적한다. 특히 자율주행 차량이 도로를 따라 이동하거나 인간‑로봇 협업에서 로봇이 인간의 임의적인 움직임을 추적해야 하는 상황에서는 참조 궤적이 사전에 정의된 동적 모델에 의해 생성되지 않는다. 기존 방법은 매번 새로운 외부 시스템 모델에 맞춰 재학습해야 하는 비효율성을 가지고 있다. 이를 해결하기 위해 저자들은 **이동 호라이즌(Moving Horizon) 기반의 새로운 Q‑함수** 를 제안한다. 기존 Q‑함수 Q(x,u)는 현재 상태와 행동만을 입력으로 하지만, 제안된 Q‑함수는 Q(x,u,rₖ,…,rₖ₊ₙ) 형태로 현재와 미래 N 단계까지 알려진 참조 시퀀스를 직접 포함한다. 정의 1에 따라 이 Q‑함수는 현재 제어 입력 uₖ와 이후 최적 제어 입력 uₖ₊₁,…,uₖ₊ₖ를 고려한 Bellman‑like 식을 갖으며, 무한 호라이즌 할인 비용을 유지하면서도 이동 호라이즌 내의 참조를 반영한다. Lemma 1은 Q₀를 최소화하는 uₖ가 원래의 LQ 추적 비용 Jₖ를 최소화함을 증명한다. 즉, 문제 1(시스템 행렬 A, B가 미지인 상황에서 최적 제어 찾기)과 문제 2(새로운 Q‑함수를 이용한 최적 제어 찾기)가 동등함을 보인다. 이후 Theorem 1에서는 시스템 행렬 A, B가 알려졌다고 가정하고 Q₀의 **해석적 해** 를 도출한다. 결과는 Q₀ = ½ zₖᵀ H zₖ 형태이며, 여기서 zₖ는 상태·제어·참조 벡터, H는 (N+2)n+m 차원의 대칭 행렬이다. H는 블록 구조와 대칭성을 가지며, 이는 Q‑함수 파라미터화와 학습 알고리즘 설계에 핵심적인 역할을 한다. Corollary 1은 H를 이용해 최적 제어 법칙을 직접 구한다. uₖ* = –H_{uu}^{–1}

동적 외부 시스템 없이도 최적 추적을 가능하게 하는 적응형 제어

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기