메타강화학습 기반 자기반성 검색 에이전트

본 논문은 “Agentic Search”, 즉 대규모 언어 모델(LLM)이 검색 엔진이나 데이터베이스와 같은 외부 툴을 활용해 복합적인 질문에 답하는 작업을 메타‑강화학습(Meta‑RL) 프레임워크 안에서 재구성한다. 기존의 강화학습 기반 에이전트는 각 검색 시도를 독립적인 에피소드로 보고, 최종 정답에 대한 보상만을 받아 학습한다. 이러한 설계는 보상이 희소하고 지연되기 때문에 초기 탐색 단계에서 비효율적인 행동을 유발하고, 잘못된 경로가 반복되는 현상을 초래한다. MR‑Search는 이를 해결하기 위해 두 가지 핵심 아이디어를 도입한다. 첫 번째는 **크로스‑에피소드 컨텍스트**이다. 하나의 메타‑에피소드는 N개의 내부 에피소드로 구성되며, 각 내부 에피소드는 T번 이하의 툴 호출·관찰·사고 순환을 포함한다. 에피소드가 끝날 때마다 모델은 “자기반성” 프롬프트에 따라 현재 답변과 과정에 대한 메타‑텍스트를 생성한다. 이 텍스트는 다음 에피소드의 입력 컨텍스트에 추가되어, 모델이 과거의 성공·실패를 직접 참고하면서 탐색 전략을 조정한다. 즉, 에이전트는 스스로 “왜 이 답이 틀렸는가”, “다음에 어떤 정보를 찾아야 하는가” 등을 언어 형태로 정리하고, 이를 기반으로 새로운 시도를 만든다. 두 번째는 **멀티‑턴 상대 이점 추정**이다. 전통적인 PPO와 달리 별도의 가치 네트워크를 두지 않고, 동일 턴에서 여러 메타‑에피소드를 샘플링해 보상을 평균화한다. 구체적으로, 각 질문에 대해 G개의 메타‑에피소드를 수집하고, n번째 턴의 보상 r_i,n에 대해 Leave‑One‑Out 방식으로 평균 보상을 빼 ˜r_i,n = r_i,n – (1/(G‑1)) Σ_{j≠i} r_j,n 을 만든다. 이 값은 해당 턴이 다른 샘플에 비해 상대적으로 얼마나 좋은지를 나타내는 편향 없는 이점이다. 이후 할인 계수 γ를 적용해 누적 이점 A_i,n = Σ_{k=n}^{N‑1} γ^{k‑n} ˜r_i,k 를 계산하고, PPO의 클리핑 서프라이즈 목표에 삽입한다. 이렇게 하면 턴 수준에서의 미세한 보상 신호를 직접 활용해 정밀한 크레딧 할당이 가능해진다. 실험 설정은 8개의 공개 벤치마크(다중 홉 QA, 사실 확인, 복합 정보 검색 등)를 사용했으며, 비교 대상은 (1) ReAct 기반 PPO 에이전트, (2) Search‑R1과 같은 최신 RL 에이전트, (3) 프로세스 보상 모델을 이용한 방법 등이다. MR‑Search는 평균 9.2%~19.3%의 상대적 정확도 향상을 기록했으며, 특히 반성 단계(N)를 늘릴수록 성능이 점진적으로 상승했다. 이는 자기반성 텍스트가 실제 탐색 효율을 높이는 메타‑피드백 역할을 함을 입증한다. 또한, 컨텍스트 관리 실험에서 전체 메타‑에피소드를 누적하는 대신 직전 에피소드만 보관해도 성능 저하가 거의 없었으며, 이는 실제 서비스 환경에서 메모리 비용을 크게 절감할 수 있음을 시사한다. 논문의 주요 기여는 다음과 같다. (i) **인‑컨텍스트 메타‑RL** 개념을 도입해, 테스트 시점에 외부 보상이 없더라도 LLM이 과거 경험을 활용해 탐색 전략을 스스로 개선하도록 설계했다. (ii) **명시적 자기반성**을 텍스트 형태의 메타‑컨텍스트로 활용함으로써, 모델이 자체적인 오류 진단·보완 과정을 학습하도록 했다. (iii) **가치 함수 없이도** 턴‑레벨 상대 이점을 이용한 편향 없는 정책 업데이트 방식을 제안해, 기존 PPO 기반 방법보다 구현 복잡도와 계산 비용을 낮추었다. 이러한 접근은 앞으로 LLM 기반 에이전트가 복잡한 도구 연동, 다단계 추론, 그리고 제한된 외부 피드백 환경에서도 지속적으로 성능을 향상시킬 수 있는 기반을 제공한다. 특히, 자기반성 메커니즘을 메타‑학습과 결합함으로써, 에이전트가 “학습‑학습” 능력을 갖추게 되어, 다양한 도메인과 작업에 대한 일반화 능력이 크게 확대될 것으로 기대된다.

메타강화학습 기반 자기반성 검색 에이전트

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기