자기진화 멀티에이전트 프레임워크 SAGE로 LLM 추론 능력 강화

SAGE는 챌린저, 플래너, 솔버, 크리틱 네 개의 역할을 공유 LLM 백본 위에 구현해, 소량의 시드 데이터만으로 자체적으로 난이도 높은 수학·코딩 문제를 생성·계획·해결·평가하며 자기주도 학습을 수행한다. 검증 가능한 보상과 형식 보정으로 커리큘럼 드리프트를 방지하고, 다양한 모델 규모에서 LiveCodeBench와 OlympiadBench 점수를 각각 8.9%·10.7% 향상시킨다.

저자: Yulin Peng, Xinxin Zhu, Chenxing Wei

자기진화 멀티에이전트 프레임워크 SAGE로 LLM 추론 능력 강화
본 논문은 대규모 언어 모델(LLM)의 추론 능력을 강화하기 위해, 인간 라벨링 데이터에 대한 의존성을 최소화하면서도 안정적인 자기‑학습을 가능하게 하는 멀티에이전트 프레임워크 SAGE(Self‑evolving Agents for Generalized reasoning Evolution)를 제안한다. 기존 연구는 강화학습(RL)과 검증 가능한 보상(VR)을 결합해 수학·코딩 등에서 성능을 끌어올렸지만, 대부분 대규모 인간 주석 데이터가 필요하거나, 플래닝·품질 제어가 부족해 장기 추론에서 불안정성을 보였다. SAGE는 이러한 문제점을 네 개의 역할(챌린저, 플래너, 솔버, 크리틱)을 하나의 공유 LLM 백본 위에 배치하고, 작은 시드 집합(≈500개)만으로 자체적으로 문제를 생성·계획·해결·평가하는 폐쇄형 루프를 구축한다. 프레임워크 흐름은 다음과 같다. 1) 챌린저는 시드 문제와 그 검증기(정답 혹은 테스트 케이스)를 조건으로 새로운 문제와 검증기를 생성한다. 2) 크리틱은 생성된 문제의 형식·품질을 점수(s_q)와 형식 보상(r_f)으로 평가하고, 솔버가 해당 문제를 해결했을 때의 실패율(1‑성공률) r_d와 결합해 챌린저 보상 r_c를 산출한다. 이때 r_d는 다중 샘플링된 솔버 답안에 검증기 V_gt를 적용해 평균 성공률을 구함으로써, 챌린저가 지나치게 어려운 문제를 만들지 않도록 난이도 조절을 수행한다. 3) 플래너는 질문을 입력받아 태그 안에 단계별 해결 전략을 생성한다. 플래너의 출력은 크리틱이 점수(s_p)와 형식 보상(r_f)으로 평가되며, 사전 정의된 임계값 β(=0.3)를 초과하면 솔버에게 전달된다. 4) 솔버는 플래너가 제공한 계획(또는 계획이 없을 경우 빈 플래그)과 질문을 바탕으로 최종 답안을 만든다. 답안은 도메인‑특화 검증기 V_gt(수학은 기호적 채점, 코딩은 테스트 실행)로 자동 검증되어 성공률 s_gt를 얻는다. 솔버 보상 r_s는 플래너 점수, 검증 성공률, 형식 보상을 가중합한 형태이며, 기본 가중치는 (w_p=0.2, w_c=0.6, w_f=0.2)이다. 5) 크리틱은 별도 파라미터 없이 스칼라 점수를 출력하고, 필요 시 형식 일관성 보상 r_cr = r_f 로 보정한다. 학습 단계에서는 Task‑Relative REINFORCE++를 적용한다. 각 역할별 배치에서 평균·표준편차를 이용해 어드밴티지를 정규화(A_role)하고, KL‑penalty를 포함한 REINFORCE++ 형태로 파라미터를 동시 업데이트한다. 이렇게 하면 역할 간 보상 스케일 차이와 정책 변동성을 억제하면서도, 전체 LLM이 공동으로 진화한다. 실험은 Qwen‑2.5‑3B‑Instruct, Qwen‑2.5‑7B‑Instruct, Qwen‑3‑4B‑Base 세 모델을 대상으로 수행되었다. 각 모델에 대해 원본 체크포인트와 SAGE로 파인튜닝한 버전을 비교했으며, 베이스라인으로는 Absolute‑Zero‑Reasoning(AZR)와 Multi‑Agent EvolvE(MAE)를 포함했다. 평가 벤치마크는 코드 생성용 LiveCodeBench와 수학 문제용 OlympiadBench이다. 결과는 모든 모델에서 SAGE가 일관된 성능 향상을 보였으며, 특히 Qwen‑2.5‑7B‑Instruct는 LiveCodeBench에서 8.9%p, OlympiadBench에서 10.7%p 상승했다. 작은 3B 모델에서도 인간 라벨링 기반 파인튜닝 대비 동등하거나 더 높은 효율을 달성했으며, AZR·MAE 대비 샘플 효율과 학습 안정성 면에서 우수함을 확인했다. 논문의 주요 기여는 (1) 네 역할을 공유 LLM에 매핑해 소량 시드만으로 자체 커리큘럼을 생성·진화시키는 확장 가능한 멀티에이전트 프레임워크 설계, (2) 검증 가능한 도메인에서 외부 검증기에 의존하는 보상 설계와 형식 보정을 통해 커리큘럼 드리프트를 방지하고 학습 신호의 품질을 유지하는 듀얼‑역할 크리틱 메커니즘, (3) 다양한 모델 규모와 두 종류의 추론 벤치마크에서 샘플 효율성과 일반화 능력을 입증한 실증적 증거. 한계점으로는 검증 가능한 도메인에만 적용 가능하다는 점, 검증기 품질에 따라 보상 신호가 크게 좌우될 수 있다는 점, 그리고 현재 네 역할을 모두 동일 LLM에 매핑했기 때문에 역할별 전문성을 충분히 활용하지 못한다는 점을 들 수 있다. 향후 연구에서는 (a) 비검증 가능한 자연어 추론이나 멀티모달 문제로 확장, (b) 역할별 전문 모델(예: 코드 실행 전용 모델, 수학 증명 전용 모델) 도입, (c) 에이전트 간 협상·의견 교환 메커니즘을 추가해 더 복잡한 협업 문제 해결을 탐구하는 방향을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기