확률적 최적 제어를 입력 추정으로 풀다
본 논문은 확률적 비선형 동역학 시스템의 최적 제어 문제를 ‘입력 추정’이라는 관점으로 재구성한다. 베이지안 추론과 EM 알고리즘을 이용해 입력(제어) 분포를 반복적으로 추정하고, 선형 가우시안 메시지 패싱을 통해 시간‑가변 선형 가우시안 피드백 컨트롤러를 도출한다. 이 과정에서 불확실성 정량화와 사전(prior) 기반 초기화가 자연스럽게 이루어지며, 결정론적 선형화 시스템에 대해서는 최대 엔트로피 LQR 해와 동등함을 증명한다.
저자: Joe Watson, Hany Abdulsamad, Jan Peters
본 논문은 확률적 비선형 동역학 시스템의 최적 제어 문제를 ‘입력 추정(Input Estimation)’이라는 새로운 관점에서 접근한다. 기존의 순차적 최적화 기법(SQP, iLQR, GPS 등)은 비용 함수에 대한 휴리스틱 정규화와 라인 서치, 스무딩 등 복잡한 파라미터 튜닝에 의존한다는 한계가 있다. 저자들은 제어‑추론 이중성을 활용해 최적 제어를 베이지안 입력 추정 문제로 재구성하고, 이를 EM(Expectation Maximization) 알고리즘과 선형 가우시안 메시지 패싱을 통해 해결한다.
**문제 정의 및 확률 모델링**
시스템은 이산시간 완전 관측 비선형 동역학 \(x_{t+1}\sim f(x_t,u_t)\) 로 표현된다. 목표는 초기 상태 \(x_0\)에서 목표 상태 \(x_g\) 로 이동하는 입력 시퀀스 \(u_{0:T}\) 를 찾는 것이다. 비용 함수 \(C(x,u)\) 를 로그우도 형태의 관측 모델 \(p(z_t|x_t,u_t)\) 로 변환한다. 여기서 \(z_t\)는 ‘관측’이며, 비용 가중치 \(\Theta\)와 스케일 파라미터 \(\alpha\)를 이용해 관측 잡음 정밀도 \(\Lambda_{\xi}= \alpha\Theta\) 로 정의한다. 동역학과 관측 모델을 모두 선형 가우시안 형태로 근사하면 다음과 같은 확률 그래프가 구성된다.
- 동역학: \(x_{t+1}=A_t x_t + B_t u_t + a_t + \eta_t,\; \eta_t\sim\mathcal N(0,\Sigma_{\eta_t})\)
- 관측(비용): \(z_t=E_t x_t + F_t u_t + e_t + \xi_t,\; \xi_t\sim\mathcal N(0,\Sigma_{\xi})\)
**EM 알고리즘**
전체 로그우도는 상태·입력·관측 변수에 대한 결합 확률로 표현된다. EM은 두 단계로 최적화를 수행한다.
1. **E‑Step**: Forney‑style factor graph에 대해 전방(→)과 후방(←) 메시지를 전달한다. 전방 메시지는 사전(mean, cov)에서 시작해 동역학을 통해 예측하고, 후방 메시지는 관측(비용)과 미래 상태 정보를 반영한다. 두 메시지를 곱해 얻은 사후분포는 \(\Sigma_x = (\Lambda_{\rightarrow x} + \Lambda_{\leftarrow x})^{-1}\) 와 \(\mu_x = \Sigma_x(\nu_{\rightarrow x} + \nu_{\leftarrow x})\) 로 계산된다. 이 과정은 칼만 필터와 스무딩과 동일하지만, 입력 \(u_t\) 에 대한 불확실성도 동시에 추정한다.
2. **M‑Step**: 관측 잡음 정밀도 \(\Lambda_{\xi}\) (즉, \(\alpha\)) 를 기대 로그우도의 미분을 통해 업데이트한다. 구체적으로 \(\alpha\)는 현재 추정된 상태‑입력 궤적과 목표 궤적 간 오차 공분산 \(\hat\Sigma_{\xi}\) 에 비례하도록 조정된다. \(\alpha\)가 점진적으로 증가함에 따라 비용 항의 비중이 커져, 최적화 과정이 점점 더 ‘비용 중심’으로 전환되는 annealing 효과가 발생한다. 이는 커리큘럼 러닝과 유사한 학습 안정화 메커니즘이다.
**컨트롤러 추출**
E‑Step에서 얻은 사후분포 \(p(x_t,u_t|z_{0:T})\) 를 이용해 조건부 입력 정책 \(p(u_t|x_t)\) 를 구한다. 이는 시간‑가변 선형 가우시안 정책
\(u_t \sim \mathcal N(K_t x_t + k_t, \Sigma_{k_t})\) 로 표현되며, \(K_t, k_t, \Sigma_{k_t}\) 은 메시지의 정밀도와 스케일 평균을 이용한 명시적 식으로 계산된다. 식은 LQR의 Riccati 방정식과 동일한 형태를 가지며, 특히 \(\Gamma\) 와 \(\Psi\) 라는 보정 행렬이 추가되어 입력 불확실성이 클 때 제어를 약화시키고, 사전 분포에 의존하도록 만든다. 이는 듀얼 컨트롤이나 베이지안 강화학습에서 관찰되는 ‘turn‑off phenomenon’과 일치한다.
**이론적 연결 및 특수 경우**
선형화된 결정론적 시스템에 대해 \(\alpha\to\infty\) (관측 잡음이 사라짐) 로 한계값을 취하면, 제안된 프레임워크는 정확히 최대 엔트로피 LQR 해와 동일함을 증명한다. 따라서 기존 LQR, iLQR, GPS 등과 비교했을 때 정규화가 사전 분포에 의해 자동으로 제공되며, 추가적인 라인 서치나 스무딩 파라미터 튜닝이 필요 없다.
**실험 및 적용 가능성**
논문 본문에서는 구체적인 실험 결과가 제시되지 않았지만, 알고리즘 흐름(Algorithm 1)과 메시지 전달 규칙을 상세히 기술함으로써 구현이 용이함을 강조한다. 비선형 시스템에 대해서는 로컬 선형화를 반복 적용함으로써 DDP·iLQR 계열 방법과 동일한 순차적 최적화 루프를 유지하면서도 베이지안 정규화와 불확실성 정량화를 동시에 제공한다는 점이 큰 장점이다.
**결론**
‘입력 추정으로서의 최적 제어(I²C)’는 제어 문제를 베이지안 추론 문제로 변환함으로써, 불확실성 정량화, 사전 기반 초기화, 자동 정규화라는 세 가지 핵심 이점을 제공한다. 특히 로봇 학습과 같은 고차원, 고불확실성 환경에서 정책 탐색과 안전성을 동시에 고려해야 하는 상황에 적합한 프레임워크라 할 수 있다. 향후 연구에서는 대규모 비선형 시스템에 대한 실험 검증, 샘플 효율성을 높이는 변분 추정 기법과의 결합, 그리고 강화학습 파이프라인에의 통합 등이 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기