버퍼가 바꾸는 LLM 추론 오프폴리시 강화학습의 새로운 가능성

본 논문은 기존 온‑폴리시 강화학습 기반 LLM 포스트‑트레이닝이 겪는 경험 낭비와 보상 동질성 문제를 해결하기 위해, 경험 버퍼를 활용한 오프폴리시 프레임워크인 BAPO(Batch Adaptation Policy Optimization)를 제안한다. BAPO는 과거의 어려운 샘플을 재평가하고 고품질 샘플을 동적으로 재사용함으로써 배치 구성을 최적화하고, 정책 개선에 대한 하한 보장을 유지한다. 실험 결과, 수학·계획·시각 추론 등 3개 도메인…

저자: Xu Wan, Yansheng Wang, Wenqi Huang

**1. 연구 배경 및 문제 정의** 최근 RLHF와 RLVR이 LLM 정렬 및 복잡한 추론 능력 향상에 핵심 기술로 자리 잡았다. 특히 GRPO와 그 변형(DAPO, GSPO 등)은 온‑폴리시 방식으로 샘플을 한 번 사용하고 버리는 ‘use‑once‑and‑discard’ 원칙을 따르며, 정책 개선을 위한 보상 표준화와 KL‑제약을 적용한다. 그러나 두 가지 근본적인 한계가 존재한다. 첫째, 보상 동질성 문제다. 어려운 샘플과 쉬운 샘플 모두 동일한 보상을 받으면 그룹 내 보상 분산이 사라져 정책 업데이트 시 그래디언트가 거의 0에 수렴한다. 둘째, 경험 낭비이다. 온‑폴리시 방식은 과거 롤아웃을 재사용하지 않기 때문에, 특히 어려운 샘플이 적은 경우 배치가 충분히 채워지지 않아 학습 효율이 저하된다. **2. BAPO 프레임워크 개요** BAPO는 이러한 문제를 해결하기 위해 오프폴리시 RLVR을 도입한다. 핵심 아이디어는 ‘버퍼 기반 경험 재활용’과 ‘난이도‑인식 배치 구성’이다. 시스템은 (a) 오프폴리시 롤아웃 단계에서 과거 정책이나 외부 강력 정책을 사용해 응답을 생성하고, (b) 오프폴리시 학습 단계에서 버퍼에 저장된 샘플을 동적으로 선택해 배치를 만든다. **3. 배치 구성 메커니즘** 배치 구성 함수 I(x)는 세 가지 조건을 통해 샘플을 X₁, X₂, X₃로 분류한다. - **X₁ (신선한 필터링 샘플)**: 현재 롤아웃 정책 α의 평균 보상이 전체 그룹 G의 중간 구간(

버퍼가 바꾸는 LLM 추론 오프폴리시 강화학습의 새로운 가능성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기