지시와 정책의 공동 진화 기반 강화학습

읽는 시간: 5 분
...

📝 원문 정보

  • Title: Agentic Policy Optimization via Instruction-Policy Co-Evolution
  • ArXiv ID: 2512.01945
  • 발행일: 2025-12-01
  • 저자: Han Zhou, Xingchen Wan, Ivan Vulić, Anna Korhonen

📝 초록 (Abstract)

강화학습 기반 검증 보상(RLVR)은 대형 언어 모델(LLM)의 추론 능력을 크게 향상시켜, 다중 턴 및 도구 통합 추론을 수행할 수 있는 자율 에이전트를 가능하게 한다. 기존 RLVR은 정적이고 수동 설계된 지시문에 의존하지만, 이러한 지시문은 기본 모델에 최적이 아닐 수 있으며, 정책이 향상되고 환경과의 상호작용이 진행됨에 따라 최적의 지시문도 변한다. 이를 해결하기 위해 우리는 INSPO라는 새로운 지시‑정책 공동 진화 프레임워크를 제안한다. INSPO는 질문과 함께 샘플링되는 동적 지시문 후보군을 유지하고, 강화학습 루프에서 얻은 보상을 각 지시문에 자동으로 할당한다. 성능이 낮은 후보는 주기적으로 제거되고, 온‑정책 반성 메커니즘을 통해 LLM 기반 최적화기가 리플레이 버퍼의 과거 경험을 분석해 현재 정책에 맞는 더 효과적인 지시문을 생성·검증한다. 다중 턴 검색 및 추론 과제에 대한 광범위한 실험 결과, INSPO는 정적 지시문에 의존하는 강력한 베이스라인보다 크게 우수한 성능을 보이며, 전략적 추론 경로를 유도하는 혁신적인 지시문을 발견한다. 계산 비용은 미미하게 증가한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 RLVR(강화학습 기반 검증 보상) 시스템에서 지시문이 정적인 설계에 머무르는 한계를 정확히 짚어낸다. LLM은 사전 학습된 언어 모델이지만, 실제 환경에서의 행동 정책은 지속적으로 변화한다. 따라서 초기 설계된 프롬프트가 최적이 아닐 가능성이 크며, 정책이 진화함에 따라 지시문도 동적으로 조정될 필요가 있다. INSPO는 이러한 요구를 충족시키기 위해 ‘지시‑정책 공동 진화’라는 새로운 학습 루프를 도입한다. 핵심 아이디어는 지시문을 개별적인 개체로 보고, 강화학습 보상을 각 지시문에 귀속시켜 성능 기반 선택·삭제 과정을 반복하는 것이다. 이는 진화 알고리즘과 메타‑강화학습을 결합한 형태로, 지시문 집단이 정책 변화에 맞춰 스스로 적응한다는 점에서 혁신적이다.

구현 측면에서 INSPO는 두 단계의 메커니즘을 사용한다. 첫째, ‘보상 귀속 단계’에서는 현재 정책이 수행한 여러 에피소드에 대해 각 질문에 매칭된 지시문별 보상을 계산한다. 이는 질문‑지시문 매핑을 유지함으로써 가능해지며, 보상 신호가 지시문의 질을 직접 평가한다. 둘째, ‘반성·생성 단계’에서는 LLM 기반 옵티마이저가 리플레이 버퍼에 저장된 경험을 분석한다. 여기서 옵티마이저는 메타‑프롬프트를 활용해 “현재 정책이 어려워하는 상황은 무엇인가”, “어떤 지시가 더 구체적·전략적일 수 있는가” 등을 스스로 질문하고, 새로운 지시문 후보를 생성한다. 생성된 후보는 검증 과정을 거쳐 기존 후보군에 추가되며, 성능이 낮은 후보는 주기적으로 프루닝된다.

실험에서는 다중 턴 검색(Multi‑turn Retrieval)과 복합 추론(Multi‑step Reasoning) 두 가지 벤치마크를 사용하였다. 정적 지시문을 사용한 최신 RLVR 베이스라인과 비교했을 때, INSPO는 평균 정확도/성공률에서 47%p 상승을 기록했다. 특히 복잡한 논리 추론 과제에서 ‘전략적 질문 전환’과 같은 혁신적인 지시문을 스스로 발견해, 에이전트가 불필요한 탐색을 줄이고 핵심 단서에 집중하도록 만들었다. 계산 비용 측면에서는 지시문 집단 관리와 옵티마이저 호출이 전체 학습 시간에 510% 정도만 추가되어, 실용적인 수준으로 유지되었다.

강점으로는 (1) 지시문을 동적으로 최적화함으로써 정책‑환경 상호작용을 보다 효율적으로 만들었다는 점, (2) LLM 자체를 메타‑옵티마이저로 활용해 인간 개입 없이도 지시문을 진화시켰다는 점, (3) 기존 RLVR 프레임워크와 손쉽게 통합될 수 있다는 점을 들 수 있다. 반면 약점은 (1) 지시문 집단 규모가 커질 경우 메모리·연산 부담이 선형적으로 증가할 가능성, (2) 보상 귀속이 질문‑지시문 매핑에 크게 의존하므로, 매핑 오류가 전체 학습에 악영향을 미칠 위험, (3) 현재 실험이 제한된 도메인에만 적용돼 일반화 여부가 아직 검증되지 않았다는 점이다. 향후 연구에서는 (a) 지시문 후보군을 압축·클러스터링하는 방법, (b) 다중 에이전트 환경에서 공동 지시문 진화를 탐색, (c) 인간 피드백을 최소화하면서도 안전성을 보장하는 검증 메커니즘 구축 등이 기대된다. 전반적으로 INSPO는 LLM 기반 에이전트가 스스로 학습 목표와 행동 지침을 동시에 진화시킬 수 있는 새로운 패러다임을 제시하며, 향후 자율 AI 시스템 설계에 중요한 이정표가 될 것으로 판단된다.

📄 논문 본문 발췌 (Excerpt)

## 지시와 정책의 공동 진화 기반 강화학습: 전문 한국어 번역

[제목]: 지시와 정책의 공동 진화 기반 강화학습

본 논문은 대규모 언어 모델(LLM)의 등장으로 가능해진 자율적 에이전트 능력의 핵심 요소를 탐구한다. 이러한 에이전트의 핵심 기능에는 지침이 중요한 역할을 한다. 지침은 에이전트의 역할과 도구/인터페이스를 정의하며, LLM 기반 에이전트의 성능에 큰 영향을 미친다.

기존 문제점:

지금까지 강화학습(RL)에서 지침은 정적으로 사전에 정의되어 왔다. 그러나 최적의 지침은 항상 알려지지 않으며, 모델의 정책이 환경과 상호작용하면서 학습할 때 변화할 수 있다. 이러한 정적 접근 방식은 에이전트가 새로운 상황에 적응하고 일반화하는 데 제약을 가져온다.

제안된 접근 방식:

본 연구에서는 지침을 정적인 요소가 아닌 동적으로 진화하는 구성 요소로 취급하여 RL 학습 루프를 개선한다. 이를 위해 INSPO (Instruction-Policy Co-evolution) 라는 새로운 프레임워크를 제시한다. INSPO는 두 가지 주요 혁신을 통해 지시와 정책의 공동 진화를 가능하게 한다:

  1. 정책 최적화 및 동적 지침: 기존 RLVR 접근 방식과 달리, INSPO는 동적인 지침 후보 집단을 유지한다. 학습 과정에서 지침은 샘플링되고 중요도에 따라 가중치가 부여된다. 보상 신호는 정책 기울기를 제공할 뿐만 아니라 각 지침 후보에 대한 보상도 할당하여 지침의 진화를 유도한다. 저조성 후보는 점차 제거되고, 고성능 후보들은 새로운 지침으로 진화한다.

  2. 경험 기반 지침 생성: INSPO는 경험 재생 메커니즘을 도입하여 혁신적이고 효과적인 지침 후보를 생성한다. 이 메커니즘은 과거 잘못된 예측이나 낮은 보상 값을 포함하는 추적 버퍼에 의존하여 LLM 기반 지침 제안 모듈에 반영 신호를 제공한다. 이를 통해 에이전트는 환경과의 상호작용에서 얻은 피드백을 바탕으로 지침을 개선할 수 있다.

실험 및 결과:

INSPO는 다양한 도구 통합 질의응답 벤치마크에서 강력한 성능을 입증한다. 실험 결과, INSPO는 정적 지침을 사용하는 기존 방법보다 상당한 성능 향상을 보여준다. 특히, 복잡한 다단계 추론과 정보 검색이 필요한 HotpotQA와 2WikiMQA 같은 벤치마크에서 INSPO의 우수성이 두드러진다.

INSPO의 주요 장점은 다음과 같다:

  • 다양한 추론 전략 탐색: 동적 지침 샘플링은 에이전트가 다양한 추론 전략을 탐색하도록 유도한다.
  • 환경 피드백 통합: 경험 기반 지침 생성은 에이전트가 환경과의 상호작용에서 얻은 정보를 활용하여 지침을 지속적으로 개선할 수 있도록 한다.
  • 효율적인 학습: INSPO는 온라인 자동화 지침 최적화를 통해 훈련에 부가적인 계산 오버헤드를 최소화하면서도 성능 향상을 달성한다.

결론:

…(본문이 길어 생략되었습니다. 전체 내용은 원문 PDF를 참고하세요.)…

📸 추가 이미지 갤러리

demo3.png main2.png reward.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키