효율적이고 강인한 Q‑값 함수 학습을 통한 도메인 일반화 정책
본 논문은 전통적인 상태‑가치(V) 기반 정책 대신 Q‑값 함수를 학습함으로써 도메인 일반화 정책의 실행 효율성을 크게 향상시킨다. 단순 감독학습(SL)만으로는 Q‑값이 행동 간 차이를 구분하지 못해 일반화가 떨어지는 문제를 발견하고, 교사 행동보다 비교 행동의 Q‑값을 강제로 크게 만들도록 두 종류의 정규화(Explicit, Heuristic)를 도입한다. 10개의 IPC‑23 도메인에 대해 세 가지 그래프 신경망(GNN) 구조(R‑GNN, …
저자: Nicola J. Müller, Moritz Oster, Isabel Valera
본 논문은 도메인 일반화 정책을 학습하기 위한 새로운 패러다임을 제시한다. 전통적으로는 그래프 신경망(GNN)을 이용해 상태‑가치 함수 V(s)를 학습하고, 각 상태에서 가능한 모든 후속 상태 s′에 대해 V(s′)를 계산한 뒤 최소 비용 액션을 선택하는 방식이 사용되어 왔다. 그러나 이러한 V‑값 기반 정책은 매 단계마다 모든 후속 상태를 전파해야 하므로, 브랜칭 팩터가 큰 도메인에서는 실행 시간이 급격히 증가한다.
이에 저자들은 Q‑값 함수 Q(s,a)를 직접 학습하는 접근법을 제안한다. Q‑값은 “현재 상태 s에서 액션 a를 선택했을 때 최적 플랜의 비용”을 근사하므로, 정책 π(s)=argmin_a Q(s,a) 를 구하기 위해서는 현재 상태만 한 번 GNN에 입력하면 된다. 따라서 동일한 상태에서 가능한 모든 액션에 대한 Q‑값을 한 번에 출력할 수 있어, 후속 상태를 일일이 전파할 필요가 없어 실행 효율성이 크게 개선된다. 실험에서는 R‑GNN, Object‑Encoding(OE), Object‑Atom‑Encoding(OAE) 세 가지 GNN 변형을 사용했으며, 모든 변형에서 Q‑값 정책이 V‑값 정책보다 평균 4~18배 빠른 실행 시간을 기록했다(표 1).
하지만 단순 감독학습(SL)만으로 Q‑값을 학습하면 “모든 액션에 대해 거의 동일한 Q‑값을 예측”하는 현상이 발생한다. 이는 교사 플래너가 제공한 최적 경로상의 액션(a*)와 비교 액션(a_i) 사이에 명시적인 구분 손실이 없기 때문이다. 결과적으로 학습된 Q‑값이 거의 동일해 정책이 무작위로 행동을 선택하게 되고, 테스트 시 커버리지가 급격히 떨어진다(그림 1 오른쪽, 표 2).
이를 해결하기 위해 두 종류의 정규화 항을 제안한다.
1. **Explicit Regularizer (Ω_Exp)**: 교사 상태의 최적 비용 h\*(s)를 이용해 비교 액션에 대한 하한 B_Exp(s)=h\*(s)+1을 설정한다. 이는 교사 액션의 Q‑값보다 비교 액션의 Q‑값이 반드시 크게 되도록 강제한다. 비록 이 방식이 Q‑값을 비허용(admissible)하게 만들지는 않지만, 정책이 교사 액션을 최우선 선택하도록 보장한다.
2. **Heuristic Regularizer (Ω_Heu)**: 허용 가능한 휴리스틱 LM‑cut을 사용해 각 비교 액션 a_i에 대해 cost(a_i)+h(s′_i) 라는 액션‑종속 하한을 계산한다. 최종 하한은 B_Heu(s,a_i)=max{h\*(s)+1, cost(a_i)+h(s′_i)} 로 정의한다. 이 방법은 특히 데드엔드(dead‑end) 상황에서 매우 큰 하한을 부여해 비교 액션을 명확히 구분한다.
정규화 손실은 L(s,a*) + λ·Ω(s,a*) 형태이며, λ=1.0 으로 설정해 기본 손실과 정규화 항에 동일 가중치를 부여한다. 실험 결과(표 2)에서 정규화된 모델은 Q‑값 차이(Diff)가 크게 증가하면서도 교사 액션에 대한 예측 오차(Err)는 유지되거나 약간 감소한다. 특히 Ω_Heu 모델은 데드엔드에 대한 높은 하한 덕분에 Diff가 가장 크게 나타났다.
학습 설정은 MAE(Mean Absolute Error)를 손실로 사용했으며, 100개의 작은 인스턴스(크기 2~100)에서 최적 플래너(Fast Downward)로 생성한 최적 플랜을 교사 데이터로 활용했다. 각 도메인에 대해 3가지 시드로 3회 반복 학습하고, 동적 커버리지 검증을 통해 가장 성능이 좋은 모델을 선택했다. 정책 실행 시 사이클 방지를 위해 이미 방문한 상태는 재방문하지 않도록 제한하였다.
성능 평가는 두 가지 지표로 이루어진다. **Scale**은 정책이 30% 이하 커버리지가 되기 전까지 성공적으로 해결한 최대 인스턴스 크기를 의미하고, **SCov**는 모든 크기에서의 커버리지 합계이다. 정규화된 Q‑값 정책은 대부분의 도메인에서 V‑값 정책보다 높은 Scale과 SCov를 기록했으며, 특히 R‑GNN 기반 Ω_Heu 모델은 평균 SCov 106.8을 달성해 LAMA‑first(평균 60.1)보다 크게 앞섰다(표 4).
또한 정책 실행 시간 측면에서도 Q‑값 기반 정책이 V‑값 기반 정책보다 4~18배 빠른 것으로 확인되었으며, 이는 실제 로봇 제어나 대규모 플래닝 시스템에서 실시간 요구사항을 만족시키는 데 큰 장점이 된다.
요약하면, (1) Q‑값 함수를 직접 학습하면 정책 실행 효율성이 크게 향상되고, (2) 단순 SL만으로는 행동 구분이 어려워 정규화가 필수이며, (3) 두 종류의 정규화(Explicit, Heuristic)가 효과적으로 Q‑값을 구분하도록 만든다. 이러한 접근은 기존 GNN‑기반 플래닝 프레임워크에 쉽게 통합될 수 있으며, 향후 더 복잡한 도메인이나 연속적 행동 공간에도 확장 가능성이 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기