스스로 탈피하는 다중합의: 두 단계 투표로 스팸 다수결을 넘어서는 강화학습
본 논문은 라벨이 없는 대규모 언어 모델을 위한 새로운 자기지도 강화학습 기법인 Dual Consensus Reinforcement Learning(DCRL)을 제안한다. 모델을 ‘앵커’와 ‘탐험가’ 두 역할로 순차 전환시켜, 앵커 단계에서는 기존 정책으로 지배적인 답을 수집하고, 탐험가 단계에서는 일시적인 언러닝을 적용해 확률 분포를 평탄화해 다양성을 확보한다. 두 단계에서 얻은 답의 발생 확률을 조화 평균(조화 평균)으로 결합해 최종 pse…
저자: Kaixuan Du, Meng Cao, Hang Zhang
본 논문은 라벨이 전혀 없는 상황에서도 대규모 언어 모델(LLM)의 추론 능력을 향상시킬 수 있는 새로운 자기지도 강화학습 기법, Dual Consensus Reinforcement Learning(DCRL)을 제안한다. 기존의 라벨‑프리 RL‑VR 방법인 TTRL, Self‑Reward 등은 모델이 생성한 다수결(pseudo‑label)에 크게 의존한다. 이러한 접근은 초기에는 유용할 수 있으나, 학습이 진행될수록 ‘스팸 다수결’에 빠져 잘못된 답이 지배적인 모드로 수렴하는 현상이 발생한다. 즉, 모델이 실제 정답이 아닌, 빈번히 나타나는 오류에 고착되는 것이다.
DCRL은 이러한 문제를 두 단계 투표 메커니즘으로 해결한다. 첫 단계인 ‘앵커(anchor)’에서는 현재 정책 πθ를 그대로 사용해 G개의 롤아웃을 수집한다. 이때 모델은 기존 정책이 가장 자신 있게 내놓는 답, 즉 지배적인 모드를 반영한다. 두 번째 단계인 ‘탐험가(explorer)’에서는 동일한 모델에 일시적인 ‘언러닝(unlearning)’ 과정을 적용한다. 구체적으로, 복제된 앵커 파라미터 θ′에 대해 L_unlearn = −log(1−p_clip) 손실을 한 번의 그래디언트 스텝으로 최소화한다. 여기서 p_clip은 앵커가 출력한 토큰 확률을 ε‑클리핑한 값이며, 이 손실은 높은 확신을 보이는 토큰의 확률을 급격히 낮춘다. 결과적으로 탐험가 모델은 확률 분포가 평탄해져, 기존 앵커가 놓쳤던 다양한 답변을 생성하게 된다.
두 단계에서 얻은 답변 집합 O₀(앵커)와 O₁(탐험가) 각각에 대해 후보 답 a의 발생 빈도 p₀(a), p₁(a)를 계산한다. 이후 조화 평균 S(a)=2·p₀·p₁/(p₀+p₁) 를 사용해 최종 pseudo‑label y*를 선택한다. 조화 평균은 두 확률이 모두 높을 때 큰 값을 갖기 때문에, ‘앵커의 신뢰도’와 ‘탐험가의 다양성’이 동시에 만족되는 답을 선호한다. 이는 단순 다수결이 스팸 답에 머무는 문제를 자연스럽게 완화한다.
보상 설계는 다음과 같다. y*와 일치하는 롤아웃에는 보상 1을 부여하고, 앵커 다수결(ˆy_anchor)과 일치하지만 y*와는 다른 경우에는 0.5의 보상을 준다. 이렇게 하면 앵커가 제공하는 잠재적으로 유망한 답변도 완전히 무시되지 않으며, 정책 업데이트 시 탐험가의 신호가 과도한 잡음이 되지 않도록 조정한다.
학습 과정에서는 Grouped Relative Policy Optimization(GRPO)을 기본 RL 알고리즘으로 사용한다. GRPO는 동일 프롬프트에 대해 여러 롤아웃을 샘플링하고, 그룹 평균·표준편차를 이용해 정규화된 advantage를 계산한다. DCRL은 여기서 ‘컨센서스 레이트’ ρ_t를 도입해 학습 단계별 탐험·활용 비율을 동적으로 조절한다. ρ_t는 앵커 롤아웃 중 ˆy_anchor와 일치하는 비율이며, 최근 K 스텝의 평균 ¯ρ_t를 구한다. ¯ρ_t가 0.5 이하이면 탐험가 롤아웃을 그라디언트 계산에서 제외하고, 0.5 초과이면 두 롤아웃을 모두 사용한다. 이 메커니즘은 정책이 과도하게 확정적이 되지 않도록 하면서, 충분히 수렴했을 때는 탐험가의 고품질 신호를 활용해 성능을 끌어올린다.
실험은 두 가지 학습 패러다임에서 수행되었다. 첫 번째는 대규모 무라벨 데이터 DAPO‑Math‑14K(≈14k 수학 문제)를 이용해 모델을 처음부터 학습하는 ‘대규모 무라벨 학습’이며, 두 번째는 사전 학습된 모델을 새로운 베치마크에 적응시키는 ‘테스트‑타임 어댑테이션(TTA)’이다. 대상 모델로는 Llama‑3.2‑3B‑Instruct, Qwen‑3‑4B‑Base, Qwen‑3‑8B‑Base, 그리고 TTA 실험에 Qwen2.5‑Math‑1.5B를 사용했다.
벤치마크는 총 8개로, 수학 전용 6개(MATH‑500, GSM8K, AIME24, Minerva‑Math, AMC, OlympiadBench)와 멀티태스크 2개(MMLU‑Pro, GPQA)를 포함한다. 각 베치마크에서 Pass@1 점수를 기준으로 기존 방법들과 비교했다. 주요 결과는 다음과 같다. (1) DCRL은 대부분의 베치마크에서 Pass@1을 1~3%p 상승시켰으며, 특히 AIME24와 OlympiadBench 같은 고난이도 수학 문제에서 가장 큰 개선을 보였다. (2) 동일 모델에 대해 기존 GRPO, TTRL, Co‑Reward 등과 비교했을 때, DCRL은 학습 곡선이 더 부드럽고, 과적합 현상이 적어 안정적인 학습이 가능했다. (3) 탐험가 롤아웃을 포함한 경우와 제외한 경우를 비교한 어블레이션 실험에서, 컨센서스 레이트 기반 동적 샘플링이 성능 향상에 크게 기여함을 확인했다. (4) 탐험가 단계에서 언러닝 스텝 수와 학습률을 변형한 실험에서도, 단일 스텝이 가장 효율적이며, 과도한 언러닝은 성능 저하를 초래한다는 점을 발견했다.
논문의 한계로는 (i) 언러닝 단계가 단일 그래디언트 스텝에 의존해 탐험가의 다양성이 제한될 수 있다는 점, (ii) 조화 평균이 두 확률이 모두 낮을 경우 정답을 놓칠 위험이 있다는 점을 들었다. 향후 연구에서는 다중 언러닝 스텝, 온‑디맨드 탐험 강도 조절, 혹은 조화 평균의 가중 변형 등 다양한 결합 함수를 탐색할 계획이다.
결론적으로 DCRL은 “스스로 라벨을 만들고, 스스로 탐험한다”는 자기지도 강화학습의 새로운 패러다임을 제시한다. 외부 인간 라벨이나 실행 가능한 환경이 없는 상황에서도 대규모 LLM이 지속적으로 성능을 향상시킬 수 있는 확장 가능한 방법으로, 라벨이 부족한 수학·과학·법률 등 다양한 도메인에서 큰 파급 효과를 기대한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기