탐색과 정책 최적화를 분리한 불확실성 기반 트리 탐색
본 논문은 강화학습에서 탐색 단계에 정책 최적화를 배제하고, 불확실성 측정과 Go‑With‑The‑Winner 트리 탐색을 결합한 새로운 프레임워크를 제안한다. 이를 통해 Atari와 MuJoCo 환경에서 기존 내재 보상 기반 방법보다 10배 이상 효율적인 탐색을 달성하고, 수집된 궤적을 감독 학습으로 정제해 최첨단 성능을 기록한다.
저자: Zakaria Mhammedi, James Cohan
본 논문은 강화학습(RL)에서 탐색 단계에 내재 보상 기반 정책 최적화를 적용하는 기존 접근법이 샘플 효율성 측면에서 한계가 있음을 지적한다. 내재 보상(RND, dynamics prediction error 등)은 상태 방문 빈도를 촉진하지만, 이를 최대화하기 위해 정책을 지속적으로 업데이트하면 비정상적인 보상 신호에 따라 학습이 불안정해지고, 특히 희소 보상 환경에서는 탐색 비용이 급증한다. 이러한 문제를 해결하고자 저자들은 탐색과 정책 최적화를 명확히 분리하는 새로운 패러다임을 제안한다.
핵심 아이디어는 두 가지다. 첫째, 탐색을 ‘검색 문제’로 재구성하고, Go‑With‑The‑Winner(GWTW) 알고리즘에서 영감을 받은 입자 기반 트리 탐색을 적용한다. 탐색 초기에는 N개의 입자가 루트 상태(초기 상태)에서 시작한다. 매 타임스텝마다 각 입자는 현재 정책(예: 무작위 Gaussian)으로 한 단계 행동을 수행해 다음 상태로 이동한다. 입자가 ‘잎’에 도달하면 이는 Dead 상태(예: 게임 오버, 물리적 실패)로 간주되어 제거된다. 반면, 보상 누적값과 에피스테믹 불확실성이 높은 입자는 ‘승자’로 선정되어 복제된다. 복제된 입자는 승자 상태에서 다시 시작함으로써 탐색 자원을 유망한 영역에 집중한다. 이 과정은 환경을 임의 시점에 리셋할 수 있는 시뮬레이션 환경에서만 가능하지만, 현대 RL 연구의 대부분이 시뮬레이션 기반임을 감안하면 실용적이다.
둘째, 불확실성 추정기로 에피스테믹 불확실성을 사용한다. 에피스테믹 불확실성은 모델이 데이터 부족으로 인해 예측에 자신이 없음을 나타내는 분산이며, 이는 아직 충분히 탐색되지 않은 상태를 자동으로 식별한다. 저자는 베이지안 신경망, 앙상블, 딥 앙상블 등 다양한 방법을 모듈식으로 적용 가능하도록 설계했으며, 불확실성 값이 높은 상태를 ‘승자’ 선정 기준에 포함시켜 탐색이 자연스럽게 미지 영역으로 확장된다.
이론적으로는 GWTW가 트리 깊이 도달에 대한 확률적 보장을 제공한다는 기존 결과를 확장한다. 트리 불균형이 존재하더라도 불확실성 가중치를 통해 탐색 효율을 유지할 수 있음을 보이며, 깊이‑보상‑불확실성 삼중 목표를 동시에 만족시키는 입자 선택 전략을 제시한다.
실험에서는 Atari 100k 제한 하에 Montezuma’s Revenge, Pitfall!, Venture 등 기존 내재 보상 기반 베이스라인이 실패하거나 매우 낮은 점수를 기록한 환경에서, 제안된 탐색 프레임워크가 10배 적은 환경 상호작용으로 동일하거나 더 높은 점수를 달성한다. 탐색 단계에서 수집된 고품질 궤적은 Salimans‑Chen의 역방향 학습(backward learning) 알고리즘을 이용해 감독 학습으로 정제한다. 정제된 정책은 이미지 입력만으로도 높은 성능을 유지하며, 기존에 전문가 시연이나 오프라인 데이터가 필요했던 MuJoCo Adroit dexterous manipulation과 AntMaze와 같은 고차원 연속 제어 문제에서도 성공적으로 적용된다. 특히, Adroit 작업에서는 픽셀 관측만으로 탐색이 가능했으며, 이는 해당 분야에서 최초로 달성된 결과이다.
전체 프레임워크는 다음과 같은 흐름을 가진다. (1) 환경 리셋을 활용한 입자 기반 트리 탐색으로 탐색 단계 수행, (2) 에피스테믹 불확실성으로 유망한 상태를 식별·강조, (3) 탐색 결과(고보상 궤적)를 저장하고, (4) 저장된 궤적을 감독 학습으로 정제해 최종 정책을 얻는다. 이 과정에서 정책 최적화는 탐색 단계에서 완전히 배제되며, 탐색 효율성을 크게 향상시킨다.
결론적으로, 이 연구는 (i) 탐색과 정책 학습을 명확히 분리함으로써 불필요한 정책 업데이트 비용을 제거하고, (ii) 불확실성 기반 트리 탐색을 통해 탐색 효율을 크게 향상시키며, (iii) 탐색 결과를 기존 감독 학습 파이프라인에 매끄럽게 연결해 최종 정책을 얻는 일련의 프레임워크를 제시한다는 점에서 의미가 크다. 또한, 환경 리셋을 탐색의 기본 연산으로 활용한다는 아이디어는 시뮬레이션 기반 연구에 새로운 설계 원칙을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기