강화학습 기반 시계열 논리 제어 합성 및 확률 만족 보장

논문은 복잡한 순차 의사결정 문제를 해결하기 위한 모델‑프리 강화학습(RL) 접근법을 제시한다. 연구 배경으로, 기존의 MDP 기반 LTL 제어 합성은 정확한 전이 확률과 라벨링 정보를 필요로 하며, 보통 Deterministic Rabin Automaton(DRA)과 제품 MDP를 구성한 뒤 확률 모델 검증을 통해 최적 정책을 도출한다. 그러나 이러한 방법은 환경이 동적·불확실하거나 그래프 구조 자체가 알려지지 않은 경우 적용이 어렵다. 이를 해결하기 위해 저자들은 Probabilistically‑Labeled MDP(PL‑MDP)라는 모델을 도입한다. PL‑MDP는 상태 전이 확률뿐 아니라 각 상태에서 관측되는 라벨 집합이 확률적으로 결정되는 구조로, 로봇이 동적인 작업 공간과 불확실한 센서 정보를 다룰 때 적합하다. 핵심 기법은 LTL 사양을 Limit Deterministic Büchi Automaton(LDBA)로 변환하는 것이다. LDBA는 비결정적 부분(Q_N)과 결정적 부분(Q_D)으로 나뉘며, ε‑전이를 통해 Q_N에서 Q_D로 전이한다. 이 구조는 DRA에 비해 자동화 크기가 지수 수준으로 작아, 제품 MDP의 상태 공간을 크게 감소시킨다. 변환된 LDBA와 PL‑MDP를 온‑더‑플라이 방식으로 곱해 제품 MDP P를 정의한다. 제품 상태는 (환경 상태 x, 라벨 ℓ, 자동화 상태 q) 로 구성되며, 전이 확률은 원래 PL‑MDP의 전이 확률과 라벨링 확률의 곱으로 계산된다. ε‑전이는 별도의 액션 ε_q' 로 모델링되어, 전이 확률이 1인 특수 전이로 처리된다. 다음으로, LDBA의 수용 조건을 기반으로 동기화 보상 함수를 설계한다. 보상은 수용 집합 F_j 를 처음 방문할 때 양의 값 r>0을 주고, 동일 집합을 재방문할 경우 다른 모든 수용 집합이 방문될 때까지 0을 반환한다. 이를 위해 ‘수용 프론티어’ A 를 유지하며, 방문한 집합을 A에서 제거하고 모두 방문하면 A를 초기화한다. 이러한 보상 구조는 에이전트가 모든 수용 집합을 무한히 반복 방문하도록 강제한다. 제안된 RL 알고리즘은 Q‑learning 혹은 SARSA와 같은 모델‑프리 방법에 위의 보상 함수를 적용한다. 저자들은 기대 누적 보상을 최대화하는 정책 µ* 가 제품 MDP에서 수용 조건을 만족할 확률을 최대로 만든다는 정리를 증명한다. 또한, µ* 를 원래 PL‑MDP에 투사하면 목표 LTL 사양을 최대 확률로 만족하는 정책 ξ* 를 얻는다. 중요한 점은 이 과정에서 AMEC(Accepting Maximal End Component) 를 사전에 계산할 필요가 없으며, 그래프 구조 자체를 알 필요도 없다는 것이다. 따라서 메모리와 계산 복잡도가 크게 감소한다. 실험에서는 2차원 격자 환경에서 라벨이 확률적으로 변하고, 이동이 확률적이며, 목표가 “항상 위험 지역을 피하고, 결국 목표 지점에 도달한 뒤, 다시 위험 지역을 피한다”와 같은 복합적인 LTL 사양을 포함한다. 제안 방법은 제한된 에피소드 내에서 높은 만족 확률(≈0.9 이상)을 달성했으며, 기존 DRA‑기반 모델‑베이스 방법보다 학습 속도와 메모리 사용량에서 우수함을 보였다. 결론적으로, 이 논문은 (1) PL‑MDP라는 보다 일반적인 불확실성 모델을 다루고, (2) LDBA를 이용해 자동화 크기를 최소화하며, (3) 동기화 보상 설계로 기대 보상과 만족 확률을 직접 연결하고, (4) AMEC‑프리 모델‑프리 RL 알고리즘을 제공함으로써, 복잡하고 동적인 실제 로봇 시스템에 LTL 제어 합성을 적용할 수 있는 실용적인 프레임워크를 제시한다.

강화학습 기반 시계열 논리 제어 합성 및 확률 만족 보장

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기