LLM 기반 의미 부분 그라운딩으로 플래닝 효율 극대화
SPG-LLM은 대형 PDDL 문제에서 의미적 힌트를 활용해 불필요한 객체·액션·프레디케이트를 사전 제거함으로써 그라운딩 시간을 획기적으로 단축하고, 일부 도메인에서는 플랜 비용까지 개선한다.
저자: Giuseppe Canonaco, Alberto Pozanco, Daniel Borrajo
**1. 서론**
고전 계획에서 PDDL은 객체·프레디케이트·액션 스키마를 정의하는 표준 언어이다. 전통적인 플래너는 이 1차 논리 표현을 전면 그라운딩해 프로포지셔널 형태로 변환한 뒤 탐색한다. 그러나 객체·파라미터 수가 늘어나면 그라운딩된 액션·사실 수가 지수적으로 폭증해 메모리·시간 병목이 발생한다. 최근 연구는 “부분 그라운딩”이라는 접근으로, 필요할 것으로 예측되는 연산자만 선택적으로 그라운딩한다는 아이디어를 제시했다. Gnad et al. (2019)는 관계 규칙 기반 특징을, Areces et al. (2023)는 워드 임베딩을, Silver et al. (2021)는 그래프 신경망을 이용해 객체·액션 중요도를 예측한다. 하지만 이들 방법은 PDDL 텍스트에 내재된 의미적 힌트를 활용하지 못한다.
**2. 배경**
논문은 STRIPS 형식의 계획 문제 Π = ⟨P, O, A, s₀, G⟩를 정의하고, 그라운딩 과정에서 변수 → 객체 치환을 통해 원자·액션을 구체화한다. 도메인 파일 D는 타입·프레디케이트·액션 스키마를, 문제 파일 P는 객체·초기·목표를 포함한다.
**3. 제안 방법 (SPG-LLM)**
- **프롬프트 설계**: 도메인·문제 파일을 템플릿 Φ에 삽입해 φ를 만든다. 프롬프트는 “목표 달성에 필요 없는 객체·액션·프레디케이트는 무엇인가?”를 LLM에게 묻는다.
- **LLM 호출**: φ를 GPT‑5‑2025‑08‑07에 전달해 D′, P′(제거 후보)를 얻는다.
- **다중 단계 검증**:
1. *구문 검증* – PDDL 문법 오류 확인.
2. *계산 검증* – 제한 시간 내에 플래너가 해를 찾을 수 있는지 테스트.
3. *의미 검증* – D′⊆D, A′⊆A, O′⊆O, s′₀⊆s₀, G′≡G인지 확인.
검증 실패 시 오류 설명을 프롬프트에 추가해 재시도(K번까지).
- **작업 축소**: 검증을 통과하면, 원본 PDDL 파일을 D′, P′로 교체하고 기존 플래너(LAMA)를 그대로 적용한다.
**4. 실험 설정**
- **벤치마크**: Agricola, Blocksworld, Depots, Hiking, Satellite, TPP, Zenotravel (각 25개 인스턴스).
- **비교 대상**: 전면 그라운딩(FG)과 객체 중요도 기반 그래프 신경망(PLOI). PLOI는 arity ≤2인 도메인에만 적용 가능.
- **평가지표**: 그라운딩 시간, 그라운딩된 액션 수, 해결 시간, 플랜 비용.
- **환경**: SPG-LLM·PLOI는 macOS Sequoia, Apple M2 (8코어, 24 GB)에서 사전 작업 수행, LAMA는 Intel Xeon E5‑2666 v3 (8코어, 8 GB)에서 실행, 1800 s 제한.
**5. 결과**
- **그라운딩 효율**: SPG-LLM은 대부분의 도메인에서 FG·PLOI 대비 10~100배 적은 액션을 그라운딩하고, 시간도 크게 단축했다. Blocksworld에서는 ‘move-b-to-b’ 액션을 제거해 두 그룹으로 결과가 나뉘었다. Depots에서는 객체 제거 비율이 낮아 개선 폭이 작았다.
- **검증 실패**: 175개 중 36개는 SPG-LLM이 과도하게 축소해 해결 불가능했으며, 도메인별 차이가 있었다(예: Agricola 8개만 성공).
- **플랜 품질**: FG와 비교했을 때 대부분의 도메인에서 플랜 비용 차이가 미미했으며, Zenotravel에서는 SPG-LLM이 현저히 낮은 비용을 기록했다. 해결 시간은 Satellite·Blocksworld에서는 비슷했지만, Zenotravel에서는 크게 빨랐다.
- **커버리지**: FG 161/175, SPG-LLM 139/175, PLOI 90/100(제한된 도메인)로, SPG-LLM이 FG보다 낮지만 PLOI보다 높다.
**6. 논의 및 한계**
- **완전성·음향성 부재**: LLM 기반 제거는 이론적 완전성을 보장하지 않으며, 검증 단계가 실용적 보조 역할만 한다.
- **프롬프트 의존성**: 모델·프롬프트 설계에 따라 결과가 크게 변동한다. 현재는 최신 GPT‑5 모델에 의존해 비용이 높다.
- **도메인 일반화**: 현재 실험은 7개 도메인에 한정되며, 복잡한 타입 계층이나 동적 생성 객체가 많은 경우 성능이 떨어질 수 있다.
**7. 향후 연구**
1. **자동 프롬프트 최적화**: 메타‑학습을 통해 도메인별 최적 프롬프트를 자동 생성.
2. **형식·논리 검증 강화**: SAT/SMT 기반 검증기로 LLM 출력의 의미 일관성을 형식적으로 증명.
3. **LLM‑플래너 통합 학습**: 부분 그라운딩과 플래너 탐색을 공동 최적화하는 end‑to‑end 프레임워크 구축.
4. **경량 LLM 활용**: 비용 효율성을 위해 파인튜닝된 도메인‑특화 경량 모델 개발.
**8. 결론**
SPG-LLM은 LLM의 자연어 이해 능력을 활용해 PDDL 파일에서 의미적으로 불필요한 요소를 사전 제거함으로써, 전통적인 전면 그라운딩의 병목을 크게 완화한다. 실험 결과는 특히 그라운딩 시간과 규모에서 획기적인 개선을 보여주며, 일부 도메인에서는 플랜 비용까지 낮추는 효과를 확인했다. 완전성 보장은 아직 부족하지만, 검증 파이프라인과 재시도 메커니즘을 통해 실용적인 수준의 안정성을 확보했다. 향후 연구는 자동 프롬프트 생성, 형식 검증 강화, 그리고 LLM‑플래너 통합 학습을 통해 이 접근을 보다 일반화하고, 비용 효율성을 높이는 방향으로 진행될 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기