네트워크 지연과 부분 관측을 고려한 연속형 딥 Q‑러닝 기반 비선형 시스템 제어

본 논문은 모델이 알려지지 않은 비선형 플랜트를 대상으로, 최대 지연 시간만 사전에 알 수 있고 센서가 전체 상태를 관측하지 못하는 상황에서 연속형 딥 Q‑러닝(NAF)을 이용한 네트워크 제어기를 설계한다. 과거 입력·출력 시퀀스를 포함한 확장 상태를 DNN의 입력으로 사용함으로써, 변동하는 네트워크 지연과 부분 관측에 강인한 제어 정책을 학습한다. 시뮬레이션(Chua 회로) 결과는 제안 방법이 안정화 목표를 달성함을 보여준다.

저자: Junya Ikemoto, Toshimitsu Ushio

네트워크 지연과 부분 관측을 고려한 연속형 딥 Q‑러닝 기반 비선형 시스템 제어
본 논문은 모델이 알려지지 않은 비선형 플랜트를 대상으로, 네트워크 기반 제어 시스템(NCS)에서 발생하는 두 가지 주요 제약—네트워크 지연이 시간에 따라 변동하고 정확한 값은 알 수 없으며, 센서가 플랜트의 전체 상태를 관측하지 못하는 부분 관측 상황—을 동시에 고려한 제어기 설계 방법을 제시한다. 기존 연구들은 보통 지연이 일정하거나, 전체 상태를 가정하거나, 혹은 딥 강화학습(DRL)을 적용하면서도 지연을 무시하는 경우가 많았다. 이러한 한계를 극복하기 위해 저자들은 연속형 딥 Q‑러닝(Continuous Deep Q‑Learning) 알고리즘, 특히 정규화 이점 함수(Normalized Advantage Function, NAF)를 기반으로 한 방법을 선택하였다. NAF는 Q‑함수를 가치 V와 이점 A로 분리하고, 이점 함수를 제어 입력에 대한 2차 형태로 모델링함으로써 연속형 액션 공간에서도 최적 행동을 직접 계산할 수 있다. 핵심 설계는 ‘확장 상태(extended state)’이다. 네트워크 지연의 최대값만 사전에 알 수 있는 상황에서, 최악의 경우를 대비해 과거 τ개의 제어 입력을 저장한다. 또한, 센서가 전체 상태를 관측하지 못하므로 과거 τ₀개의 출력도 함께 사용한다. 확장 상태 wₖ는 다음과 같이 정의된다: wₖ =

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기