안전 강화 강화학습을 위한 견고한 MPC 통합

1. 서론 논문은 강화학습(RL)이 최근 체스·바둑·로봇 보행 등에서 뛰어난 성과를 보였음에도 불구하고, 안전·안정성 보장이 미흡하다는 점을 지적한다. 제어공학 분야에서 널리 사용되는 모델 예측 제어(MPC)는 제약을 만족하는 해를 보장하지만, 모델 정확도에 크게 의존한다는 한계가 있다. 따라서 두 접근법을 결합해 안전하면서도 최적의 제어 정책을 얻고자 한다. 2. 문제 정의 및 안전 설계 제약(SDC) 시스템을 연속 상태·행동 공간을 갖는 마코프 과정으로 모델링하고, 정책 π(s)와 비용 함수 J(π)를 정의한다. 안전은 제약 ξ(s,π(s)) ≤ 0이 모든 가능한 상태 전이에서 만족되는 것으로 정의한다(8). 이를 위해 상태 전이의 ‘분산 집합’ S⁺(s,a) = {s⁺ | P(s⁺|s,a) > 0}를 도입하고, 파라미터 θ를 이용해 외부 근사 ˆS⁺(s,a,θ) = {s⁺ | g_θ(s⁺,s,a) ≤ 0}를 만든다. 안전 설계 제약은 ˆS⁺가 실제 S⁺를 포함하도록 하는 조건(11)이며, 이를 샘플 기반 형태(15)로 변환해 RL 파라미터 업데이트에 강제한다. η‑안전 정책 정의(17)를 통해, 주어진 데이터와 초기 상태 집합에 대해 제약 위반 확률이 0인 정책을 공식화한다. 3. 견고한 MPC 기반 함수 근사 선형 시스템 xₖ₊₁ = A xₖ + B uₖ + b와 선형 제약 Cx + Du + c ≤ 0을 가정한다. 불확실성 집합을 다각형 형태로 저차원화하고, 이를 이용해 견고한 MPC 문제를 다음과 같이 정의한다: Q_θ(s,a) = min_{z₀…z_{N-1}} Σ_{k=0}^{N-1} γ^k ℓ(x_k,u_k) + γ^N V_f(x_N) subject to dynamics, 제약, 그리고 불확실성 집합 내의 모든 교란에 대한 강건성 보장. 여기서 ℓ은 단계 비용, V_f는 최종 비용이다. 이 최적화 문제는 매 시간 단계마다 해결되며, 자동 미분을 통해 ∂Q/∂θ와 ∂π/∂θ를 얻을 수 있다. 따라서 Q‑러닝, 정책 경사법 등 기존 RL 알고리즘에 그대로 삽입 가능하다. 4. 데이터 효율성 및 제약 관리 실제 시스템은 비선형이거나 고차원일 수 있으므로, 논문은 ‘명목 선형 모델’과 ‘저차원 불확실성 집합’이라는 두 가지 근사를 도입한다. 비선형 효과는 교란 w로 모델링해 보수성을 유지한다. 또한, SDC를 모든 샘플에 적용하는 대신, 샘플 기반 제약(15)을 사용해 제한된 수의 제약만 검증한다. 이는 대규모 데이터 수집 환경에서 실시간 적용 가능성을 크게 향상시킨다. 5. RL 알고리즘과의 통합 제안된 프레임워크는 다음 절차로 동작한다. (a) 매 시간 단계마다 현재 파라미터 θ로 견고한 MPC를 해결하고, 얻어진 입력을 시스템에 적용한다. (b) 관측된 전이 (s_k, a_k, s_{k+1})를 저장하고, SDC를 검증한다. (c) 일정 간격으로 RL 최적화 문제(18)를 풀어 θ를 업데이트한다. 이때 제약 위반이 발생하면 해당 업데이트는 거부된다. 6. 시뮬레이션 실험 두 가지 사례가 제시된다. 첫 번째는 제약이 있는 선형 시스템으로, 기존 RL‑MPC와 비교했을 때 제약 위반이 전혀 없으며 비용도 유사하거나 더 낮다. 두 번째는 비선형 동역학에 교란을 추가한 경우이며, 여기서도 제안 방법은 안전성을 유지하면서 수렴 속도가 빠르고 최종 비용이 낮다. 7. 결론 및 향후 연구 논문은 안전을 설계 단계에서 보장하는 RL‑MPC 프레임워크를 제시함으로써, 안전이 필수적인 자율주행, 로봇, 산업 자동화 등에 바로 적용 가능한 방법을 제공한다. 향후 연구 과제로는 비선형 견고 MPC의 효율적 구현, 불확실성 집합의 학습 기반 축소, 그리고 실시간 하드웨어 구현 등이 제시된다.

안전 강화 강화학습을 위한 견고한 MPC 통합

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기