최적 안전 제어 합성: 밀도 함수 접근법

본 논문은 안전을 보장하면서도 제어 입력의 누적 비용을 최소화하는 최적 제어 문제를 새로운 관점에서 접근한다. 기존의 제어 장벽 함수(CBF) 방법은 현재 상태에만 의존해 안전을 확보하지만, 장기적인 누적 개입을 최소화한다는 목표에는 한계가 있다. 저자들은 이러한 한계를 극복하기 위해 시스템 상태의 확률 밀도 ρ(x,t)를 기술하는 Liouville 방정식을 활용한다. 먼저, 시스템 동역학 ˙x = f(x)와 제어 입력 u에 대해 가치 함수 V(x)와 밀도 함수 ρ_s(x) 사이에 듀얼 관계가 존재함을 수학적으로 증명한다. 무한 시간 할인 비용 J=∫₀^∞ e^{-κt}C(x(t),u(t))dt에 대해 Bellman 방정식 C+∇V·F_u−κV=0와 최적 정책 u*(x)=arg min_u {C+∇V·F}를 도출한다. 동시에, 동일 비용을 상태 분포 관점에서 바라보면, 정적 밀도 ρ_s가 ∇·(ρ_s F_u)=φ⁺−κρ_s 를 만족하도록 하는 최소화 문제 h_{X} ρ_s C_u dx 를 풀어야 한다. 여기서 φ⁺는 새로운 상태가 생성되는 공급 함수이며, φ⁺는 컴팩트한 영역에만 비제로라고 가정한다. 정리 1은 위 두 문제 사이에 무갭 듀얼리티가 존재함을 증명한다. 증명은 라그랑지안에 대한 KKT 조건을 전개하고, 라그랑주 승수 μ를 가치 함수 V와 동일시함으로써 이루어진다. 특히, Lemma 1은 경계에서의 플럭스 항이 0으로 수렴한다는 사실을 이용해 적분 부분을 소거하고, 무한 영역에서도 정당성을 확보한다. 안전 제약은 위험 집합 X_d에 대한 밀도 ρ_s가 0이 되도록 하는 형태로 표현된다. 이는 원시 문제에 σ·1_{X_d}라는 추가 항을 도입해 가치 함수 방정식에 σ 1_{X_d}를 더하는 형태로 변환된다. 따라서 σ는 위험 영역에 대한 라그랑주 승수이며, σ를 반복적으로 업데이트하면서 ρ_s·1_{X_d}가 허용 오차 이하가 될 때까지 수렴한다. 이 과정을 Algorithm 1에 정리했으며, 각 반복에서 (i) 현재 σ를 이용해 최적 제어 u*를 구하고, (ii) 해당 u*에 대한 정적 밀도 ρ_s를 계산한 뒤, (iii) σ를 ρ_s·1_{X_d}에 비례해 증가시킨다. 외란이 존재하는 경우에는 최악의 외란 d*(x)를 상태 의존 함수로 가정하고, 이를 내부 최대화 문제 max_d ∇V_d·F(x,u,d) 로 정의한다. Proposition 1은 시간 불변 시스템에서 최악의 외란이 상태에만 의존한다는 점을 보이며, 이를 이용해 Algorithm 2에서 외란을 동적으로 업데이트한다. 즉, 매 반복마다 현재 u*에 대해 최악 외란 d*를 계산하고, 그 외란 하에서 ρ_s를 재평가한다. 이론적 기여 외에도 논문은 적응형 크루즈 제어(ACC) 시뮬레이션을 통해 제안 방법을 검증한다. ACC 모델은 차량 간 거리와 속도 차이를 상태 변수로 두고, 목표는 거리 유지와 연료 효율성을 동시에 달성하는 것이다. 기존 CBF 기반 제어는 거리 위험 영역에 진입하면 즉시 제동을 가해 안전을 확보하지만, 자주 제동·가속을 반복해 연료 소비와 승차감이 악화된다. 반면, 밀도 함수 기반 설계는 전체 상태 분포를 고려해 위험 영역에 들어가는 확률을 최소화하고, 누적 제어 입력(연료 소비·승차감)도 감소시킨다. 실험 결과는 비용 함수 C에 시간 가중치를 포함했을 때, 제안 방법이 CBF 대비 약 15%~20%의 누적 비용 절감을 달성함을 보여준다. 결론적으로, 이 논문은 (1) 밀도 함수와 가치 함수 사이의 듀얼성을 엄밀히 증명하고, (2) 이를 기반으로 안전 제약을 직접 포함한 최적 제어를 원시‑쌍대 알고리즘으로 해결하며, (3) 외란에 대한 강인성을 확보하기 위해 최악 외란을 상태 의존 함수로 모델링한다는 세 가지 핵심 기여를 한다. 제안된 프레임워크는 CBF와 같은 기존 방법에 비해 누적 개입을 현저히 줄일 수 있으며, 복잡한 제약이 존재하는 로봇·자동차·항공 등 다양한 분야에 적용 가능성을 제시한다.

최적 안전 제어 합성: 밀도 함수 접근법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기