비마르코프 보상 기반 의사결정 계획과 NMRDPP 시스템

본 논문은 의사결정 이론적 계획(decision‑theoretic planning) 분야에서, 보상이 현재 상태가 아니라 과거 실행 이력에 의존하는 비마르코프 보상(NMR) 문제를 다룬다. 전통적인 마르코프 의사결정 과정(MDP)은 상태와 보상이 마르코프성을 만족해야 하지만, 실제 많은 계획 문제는 “특정 목표를 일정 횟수 내에 달성한다”, “첫 번째 목표 달성 시 보상을 준다”와 같이 시퀀스 기반의 특성을 가진다. 이러한 특성을 자연스럽게 모델링하기 위해 NMRDP라는 모델이 제안되었으며, NMRDP를 MDP로 변환해 기존 효율적인 MDP 솔버를 활용하는 것이 일반적인 접근법이다. 기존 변환 방법은 두 갈래로 나뉜다. 첫 번째는 Bäckus 등(1996)이 제안한 방식으로, 상태 기반 정책 반복(policy iteration)과 같은 완전 탐색 기법에 맞추어 가능한 최소 크기의 MDP를 사전 생성한다. 이를 위해 과거 이력을 캡처하는 최소한의 보조 변수를 상태에 추가한다. 그러나 이 변환은 전체 상태 공간을 미리 확장해야 하므로, 언제‑시간(state‑based) 탐색 알고리즘(LA0*, LRTDP 등)의 장점을 활용하기 어렵다. 두 번째는 Bäckus 등(1997)이 제안한 방식으로, 구조화된 표현(예: 동적 베이지안 네트워크, ADD)을 이용해 대략적인 변환만 수행한다. 이 방법은 구조화된 솔버에 적합하지만, 변환 후 생성되는 MDP가 여전히 크게 부풀어 탐색 효율을 저하시킨다. 이러한 한계를 극복하고자 저자들은 새로운 변환 프레임워크와 소프트웨어 플랫폼을 제시한다. 핵심 아이디어는 (1) ‘blind minimality’라는 최소성 개념을 도입해, 언제‑시간 탐색이 실제로 확장할 상태에만 최소한의 히스토리 정보를 추가한다는 점이다. 이는 사전 전역 탐색 없이도 변환 단계에서 불필요한 상태를 배제함으로써, 탐색 알고리즘이 필요로 하는 최소한의 MDP만을 동적으로 생성한다. (2) 보상 사양 언어로 과거 기반의 PLTL 대신 미래 선형 템포럴 논리(FLTL)를 사용한다. FLTL는 “다음에”, “언제‑까지”와 같은 미래 연산자를 제공해 보상 조건을 직관적으로 기술할 수 있다. 또한 FLTL 공식의 진행(progress) 연산을 통해 현재 상태와 남은 보상 요구를 실시간으로 업데이트할 수 있어, 탐색 과정에서 보상 정보를 효율적으로 관리한다. 이러한 이론적 기반 위에 구축된 시스템이 NMRDPP(Non‑Markovian Reward Decision Process Planner)이다. NMRDPP는 하나의 통합 인터페이스 아래에서 (가) FLTL 기반 보상 사양 입력, (나) 여러 변환 전략(플랫 변환, 구조화 변환, blind‑minimal 변환) 선택, (다) 동적 프로그래밍, 휴리스틱 탐색(LA0*, LRTDP 등), 구조화된 MDP 솔버(예: SPUDD) 적용을 자유롭게 조합할 수 있다. 또한 탐색 과정에서 사용된 메모리, 시간, 확장된 상태 수, 얻어진 정책의 기대 보상 등을 자동으로 기록하고, 그래픽 UI를 통해 MDP와 정책을 시각화한다. 실험에서는 다양한 도메인(헬스케어 로봇, 엘리베이터 제어, 블록스 월드·물류)과 문제 파라미터를 변형하여, (i) 동적 불확실성(전이 확률)의 정도, (ii) 보상 구조(단일 목표, 반복 목표, 조건부 목표), (iii) 보상 공식의 복잡도(FLTL 연산자 수), (iv) 보상이 최적 정책에 미치는 관련성 등을 변수로 설정했다. 실험 결과는 다음과 같다. 첫째, 동적 프로그래밍은 상태 수가 작고 보상 공식이 단순할 때 가장 빠르고 정확한 정책을 제공한다. 둘째, 상태 폭발이 심한 경우에는 언제‑시간 탐색(LA0*, LRTDP)이 메모리와 시간 면에서 압도적으로 우수했으며, 특히 blind‑minimal 변환을 사용했을 때 탐색 공간이 70~90% 감소했다. 셋째, FLTL 기반의 탐색 제어 지식(예: “목표 달성 전까지는 행동 a를 금지”)을 삽입하면 탐색 효율이 크게 향상되어, 복잡한 블록스·물류 문제에서도 실시간에 가까운 정책을 얻을 수 있었다. 넷째, 보상이 최적 정책에 크게 기여하지 않는 경우(예: 보상이 희소하거나 무관한 경우)에는 변환 비용이 오히려 전체 성능을 저하시켰다. 마지막으로 NMRDPP는 2004년 제1회 국제 확률 계획 대회(IPPC)에서 도메인‑독립 트랙과 핸드‑코딩 트랙 모두에 참가하여 뛰어난 성과를 거두었다. 특히 핸드‑코딩 트랙에서 FLTL 기반 검색 제어 지식을 활용해 블록스·물류 문제를 효과적으로 해결했으며, 도메인‑독립 트랙에서도 구조화된 솔버와 언제‑시간 탐색을 적절히 조합해 2위에 올랐다. 이는 NMRDPP가 비마르코프 보상 문제를 실용적인 수준으로 해결할 수 있음을 입증한다. 결론적으로, 논문은 비마르코프 보상 문제를 언제‑시간 탐색과 자연스럽게 결합할 수 있는 변환 프레임워크와 이를 구현한 NMRDPP 플랫폼을 제시함으로써, 기존 방법들의 한계를 극복하고 실용적인 의사결정 계획에 새로운 길을 연다. 향후 연구에서는 더 복잡한 FLTL 연산자 지원, 다중 에이전트 확장, 그리고 학습 기반 보상 추정과의 통합이 기대된다.

비마르코프 보상 기반 의사결정 계획과 NMRDPP 시스템

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기