안전 제약을 고려한 미지 시스템 동역학 최적 제어

본 논문은 실제 시스템의 정확한 동역학 모델을 알 수 없는 상황에서, 알려진 근사 모델을 활용해 안전 제약을 포함한 연속시간 최적 제어 문제를 해결하는 새로운 방법론을 제시한다. 서론에서는 전통적인 최적 제어 이론(PMP, 동적 프로그래밍 등)이 완전한 모델을 전제로 한다는 한계를 지적하고, 실제 자율 주행 등 복잡한 시스템에서 모델 불일치가 성능 저하와 안전 위험을 초래한다는 문제점을 제시한다. 기존 연구로는 강화학습(RL), 적응 제어, 그리고 모델‑기반 보조 최적화가 있지만, 각각 학습 비용, 실시간 안정성, 혹은 구조적 가정의 제한이 있다. 본 연구의 핵심 아이디어는 실제 시스템(plant)의 상태 ˆx(t)와 모델 상태 x(t) 사이의 차이를 실시간으로 측정하고, 이를 비용 함수에 β(t)‖x−ˆx‖² 형태의 벌점으로 포함시키는 것이다. 이렇게 정의된 모델‑보조 비용 J_mod은 실제 시스템의 비용 J_act과 동일한 최적 제어를 유도할 수 있는 충분조건을 탐구한다. 구체적으로, Problem 1은 실제 시스템의 비용 최소화를 목표로 하지만 ˆf가 알려지지 않아 직접 해결이 불가능하다. 이를 대신해 Problem 2는 알려진 모델 f와 제약 c(t,x,u)≤0을 사용하고, 추가 벌점 β(t)‖x−ˆx‖²를 포함한다. 섹션 III에서는 Pontryagin 최소 원리를 적용해 두 문제 각각에 대한 Hamiltonian을 도출한다. 실제 시스템용 Hamiltonian ˆH는 ℓ + λᵀˆf + µc 형태이며, 모델‑보조 Hamiltonian H는 ℓ + λᵀf + β‖x−ˆx‖² + µc 형태이다. 각 Hamiltonian에 대해 상태·공역방정식, 비용ate 방정식, 그리고 점별 최소화 조건을 명시한다. 특히, 안전 제약이 활성화된 경우 라그랑주 승수 µ가 비제로가 되며, 제약의 차수(q)까지 미분해 “접선 조건”을 만족해야 함을 강조한다. 섹션 IV에서는 두 Hamiltonian의 점별 최소화 문제에 대한 존재·유일성 및 등가성(equivalence) 결과를 제시한다. 먼저, Assumption 1·2를 통해 U가 비공집합·폐·convex이며, Hamiltonian이 proper·lower‑semicontinuous·convex·coercive임을 가정한다. 이때 Theorem 1은 최소화 해가 존재하고, strict convexity이 있으면 유일함을 보인다. 이어서 Theorem 2는 “∂uˆH = ∂uH”라는 부분 미분 일치 조건을 전제로, 제약 집합 C={u∈U|c≤0} 위에서 두 Hamiltonian의 최적 해가 동일함을 증명한다. 이는 convex 분석에서의 정상 cone N_C와 subdifferential 관계를 이용한 것으로, 실제 시스템과 모델이 동일한 비용ate·라그랑주 승수 구조를 가질 때 자연스럽게 성립한다. 다음으로, 실제 적용이 용이하도록 2차 제어 비용 ℓ(t,x,u)=ℓ₀(t,x)+½uᵀR(t)u와 선형 성장 제한을 가정한 Assumption 3·4를 도입한다. 이 경우 Hamiltonian은 u에 대해 강하게 convex하고, β‖x−ˆx‖² 항이 quadratic penalty와 결합해 coercivity를 보장한다. Lemma 1은 이러한 조건 하에서 점별 최소화 문제가 항상 유일한 해를 갖는다는 것을 증명한다. 섹션 V에서는 제안된 프레임워크를 실제 로봇 플랫폼에 적용한다. 실험은 다중 로봇이 동일한 경로를 따라 이동하면서 서로 간 안전 거리를 유지하도록 설계된 크루즈 컨트롤 시나리오이다. 모델은 간단한 1차 차량 동역학을 사용하고, 실제 로봇은 비선형 마찰·구동 지연을 포함한다. β(t)는 실시간으로 측정된 상태 오차에 비례하도록 설정했으며, R(t)와 안전 제약 c(t,x,u)=d_safe−(x_j−x_i)≤0을 통해 최소 거리 d_safe를 유지한다. 실험 결과, 모델‑보조 최적 제어는 실제 차량 간 거리 오차를 5 % 이하로 억제했으며, 제어 입력의 변동성도 기존 RL 기반 정책보다 30 % 감소했다. 또한, 제어 성능이 모델 파라미터 오차가 ±20 %까지 증가해도 크게 저하되지 않아, 제안 방법의 로버스트성을 확인했다. 마지막으로 섹션 VI에서는 연구의 한계와 향후 과제를 논의한다. 현재는 연속시간 deterministic 시스템에 국한되어 있으며, stochastic 잡음이나 외란에 대한 확장이 필요하다. 또한, β(t)의 설계가 경험적이며, 자동 튜닝 메커니즘이 요구된다. 향후 연구에서는 데이터‑드리븐 모델링과 결합해 β를 학습하거나, 다중 제약(충돌 회피·에너지 제한 등)을 동시에 다루는 다목적 최적화로 확장할 계획이다. 전반적으로 이 논문은 모델‑기반 최적 제어에 안전 제약과 모델‑불일치 벌점을 체계적으로 결합함으로써, 미지 동역학 환경에서도 이론적 최적성을 보장하고 실험적으로도 그 유효성을 입증한 중요한 기여를 제공한다.

안전 제약을 고려한 미지 시스템 동역학 최적 제어

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기