매치와 재생: 자체 모방 PPO로 탐색 효율 극대화

본 논문은 온‑정책 PPO에 자체 모방 학습을 결합한 SIPP 프레임워크를 제안한다. 밀집 보상 환경에서는 최적 수송 거리 기반 MATCH 전략으로 고수익 궤적의 상태 분포를 우선시하고, 희소 보상 환경에서는 성공 궤적을 재생하는 REPLAY 전략을 적용한다. MuJoCo, PointMaze, Animal‑AI 등에서 기존 SIL·SVPG 대비 학습 속도와 성공률이 크게 향상됨을 실증한다.

저자: Gaurav Chaudhary, Laxmidhar Behera, Washim Uddin Mondal

매치와 재생: 자체 모방 PPO로 탐색 효율 극대화
본 논문은 강화학습 에이전트가 희소 보상 환경에서 겪는 탐색 비효율성을 해결하고자, 자체 모방 학습(self‑imitation)을 온‑정책 PPO와 자연스럽게 결합한 Self‑Imitating Proximal Policy Optimization(SIPP) 프레임워크를 제안한다. 기존 연구들은 전문가 시연이나 외부 보조 신호에 의존하거나, 오프‑정책 SIL을 PPO에 적용하려다 이론적 불일치와 구현 복잡성을 야기했다. SIPP는 이러한 문제를 피하면서도, 에이전트가 스스로 발견한 고수익 상태‑액션 쌍을 활용해 탐색을 구조화한다. 논문은 먼저 강화학습의 기본 MDP 정의와 PPO의 클리핑 기반 정책 업데이트를 간략히 소개한다. 이어서 두 가지 핵심 전략을 상세히 설명한다. 1. **MATCH (밀집 보상용)** - 과거 에피소드 중 반환이 가장 높은 궤적을 선택하고, 해당 궤적의 상태 방문 분포 ν와 현재 정책이 생성한 분포 µ를 정의한다. - 최적 수송 거리, 구체적으로는 Sinkhorn 알고리즘을 이용한 정규화된 Wasserstein‑2 거리를 계산한다. - 거리값이 작을수록 현재 샘플이 과거 고수익 궤적과 유사하다고 판단하고, PPO의 손실에 가중치를 부여한다(우선순위 샘플링). - 이 과정은 온‑정책 루프 내에서 수행되며, 별도의 목표 네트워크나 보상 변형 없이도 정책이 고수익 영역을 빠르게 재방문하도록 만든다. 2. **REPLAY (희소·이진 보상용)** - 성공적인 전체 궤적을 버퍼에 저장하고, 일정 확률(p_replay)로 전체 궤적을 재생한다. - 재생된 궤적은 기존 PPO 업데이트와 동일하게 사용되며, 특히 장기 의존성이 강한 목표 지향 과제에서 효과적이다. - 부분 관측이 존재하는 3D Animal‑AI 환경에서도 전체 궤적 재생이 관측 불확실성을 보완해 탐색을 촉진한다. 알고리즘 흐름은 기존 PPO와 거의 동일하지만, 롤아웃 버퍼를 샘플링할 때 MATCH가 정의한 OT 기반 우선순위 혹은 REPLAY가 지정한 전체 궤적 재생 여부를 판단한다. 이로 인해 샘플 재사용에 따른 편향이 발생할 수 있으나, 실험에서는 GePPO와 유사한 안정성을 보였으며, 편향 보정 없이도 수렴이 빠르고 안정적이었다. **실험** - **밀집 보상**: MuJoCo의 Hopper, Walker2d, HalfCheetah 등 6가지 연속 제어 과제에서 SIPP‑MATCH가 기존 PPO‑SIL 대비 평균 30% 빠르게 수렴하고, 최종 평균 보상이 5~10% 상승했다. - **희소 보상**: Multi‑goal PointMaze와 3D Animal‑AI Olympics(부분 관측, 픽셀 입력)에서 REPLAY 전략을 적용했을 때 성공률이 15~20%p 향상되었으며, 학습 에피소드 수가 절반 이하로 감소했다. - **비교**: SVPG, GASIL, RND‑GASIL 등 최신 SIL·탐색 기법과 비교했을 때, SIPP는 전반적으로 더 높은 샘플 효율성과 안정성을 보였다. - **Ablation**: MATCH만 사용하거나 REPLAY만 사용했을 때도 각각 일정 수준의 개선이 있었지만, 두 전략을 환경에 맞게 선택·조합했을 때 가장 큰 시너지 효과가 나타났다. **한계 및 향후 연구** - OT 계산 비용이 상태 차원에 비례해 증가하므로, 고차원 이미지 입력에서는 임베딩 네트워크와 결합한 저차원 표현이 필요하다. - REPLAY 버퍼 크기와 재생 확률에 대한 민감도가 존재해, 자동 튜닝 메커니즘이 요구된다. - 현재는 단일 에이전트 설정에 초점을 맞추었으며, 멀티‑에이전트 협업 시 자기 모방이 어떻게 확장될지에 대한 연구가 필요하다. 결론적으로, SIPP는 온‑정책 PPO에 자체 모방 학습을 자연스럽게 통합함으로써, 밀집·희소 보상 모두에서 탐색 효율을 크게 향상시킨다. 최적 수송 기반의 MATCH와 전체 궤적 재생 기반의 REPLAY라는 두 축을 통해 다양한 환경에 적용 가능하며, 향후 복합적인 관측과 멀티‑에이전트 시나리오에도 확장될 잠재력을 가진 접근법이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기