벨만 가치 분해를 이용한 안전 최적 제어와 작업 논리 통합

본 논문은 복합적인 시간 논리(TL) 사양을 만족시키는 안전 최적 제어 문제를, 기본적인 Reach‑Avoid, Avoid, 그리고 새롭게 제안된 Reach‑Avoid‑Loop 벨만 방정식으로 구성된 가치 그래프 형태로 분해한다. 제안된 VDPPO 알고리즘은 이 그래프를 두‑계층 신경망에 내재시켜 값과 정책을 동시에 학습하며, 시뮬레이션 및 실제 드론·사족보행 로봇 실험에서 기존 방법 대비 학습 속도와 성공률을 크게 향상시킨다.

저자: William Sharpless, Oswin So, Dylan Hirsch

벨만 가치 분해를 이용한 안전 최적 제어와 작업 논리 통합
본 연구는 복합적인 시간 논리(TL) 사양을 만족시키는 안전 최적 제어 문제를, 벨만 가치 함수 자체가 갖는 구조적 특성을 이용해 체계적으로 분해하는 새로운 프레임워크를 제시한다. 논문은 먼저 연속 시간·공간 시스템 x_{t+1}=f(x_t,a_t) 위에서 정의되는 TL 사양을 로봇의 목표·위험 영역을 나타내는 ‘원자적’ predicate r_i 로 표현하고, 이들에 대한 robustness 점수 ρ

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기