에이전트스윙: 장기 웹 에이전트를 위한 적응형 병렬 컨텍스트 관리 라우팅
본 논문은 LLM 기반 웹 에이전트가 긴 탐색 과정을 수행할 때 발생하는 컨텍스트 용량 제한 문제를 해결하기 위해, 성공을 “탐색 효율(η)”과 “최종 정밀도(ρ)” 두 축으로 정량화하는 확률론적 프레임워크를 제시한다. 이를 바탕으로, 현재 상태에 따라 여러 정적 컨텍스트 관리 전략(Keep‑Last‑N, Summary, Discard‑All)을 병렬로 적용하고, 짧은 Lookahead 후 가장 유망한 경로를 선택하는 “AgentSwing”이라…
저자: Zhaopeng Feng, Liangcai Su, Zhen Zhang
본 논문은 “AgentSwing: Adaptive Parallel Context Management Routing for Long‑Horizon Web Agents”라는 제목으로, 대규모 언어 모델(LLM)을 기반으로 한 웹 에이전트가 긴 탐색 과정을 수행할 때 발생하는 컨텍스트 용량 한계 문제를 근본적으로 해결하고자 한다.
1. **문제 정의와 동기**
- 장기 웹 탐색은 수백 번에 달하는 생각‑툴‑응답 순환을 필요로 하며, 각 턴은 토큰을 소모한다. 모델의 최대 컨텍스트 길이를 초과하면 에이전트는 더 이상 이전 대화를 참조할 수 없게 되며, 이는 “컨텍스트 회전(context rot)”이라 불리는 현상을 초래한다.
- 기존 연구는 “Discard‑All”, “Keep‑Last‑N”, “Summary” 등 하나의 정적 전략을 전체 탐색 과정에 일관되게 적용한다. 그러나 탐색 중에 누적된 정보의 유용성은 시점에 따라 크게 달라지므로, 정적 전략은 효율성(탐색 효율 η)과 정확성(최종 정밀도 ρ) 사이에서 고정된 트레이드오프만 제공한다.
2. **확률론적 프레임워크**
- 저자들은 성공을 두 확률 변수 η와 ρ로 분해한다. η는 주어진 작업 τ에 대해 제한된 자원(컨텍스트와 턴) 내에서 에이전트가 멈춤 지점에 도달할 확률, ρ는 그 멈춤 지점에서 정답을 도출할 조건부 확률이다.
- 전체 성공 확률은 η·ρ이며, 이는 기존 Pass@1과 동일하지만 두 축을 별도로 분석함으로써 전략의 장단점을 명확히 파악할 수 있다.
- 실험적으로 η와 ρ를 별도 측정하고, “Aligned Terminal Precision”라는 공통 완료 집합에 대한 정확도 지표를 도입해 전략 간 공정한 비교를 수행한다.
3. **정적 전략의 효율‑정밀도 분석**
- “Baseline”(컨텍스트 관리 없음)은 η가 가장 높지만, 긴 히스토리로 인한 모델 성능 저하로 ρ가 낮다.
- “Discard‑All”은 매번 컨텍스트를 초기화해 작은 작업 단위로 여러 번 시도하므로 ρ가 높지만, 각 시도당 η가 낮아 전체 성공률은 제한된다.
- “Keep‑Last‑N”와 “Summary”는 중간 지점에 위치해 η와 ρ 사이에 균형을 제공하지만, 상황에 따라 최적이 아니다.
4. **AgentSwing 설계**
- **Parallel Context Management**: 트리거 포인트(컨텍스트 길이가 모델 최대 길이의 r% 초과)에서 여러 정적 전략을 동시에 적용해 여러 관리된 컨텍스트 집합을 만든다. 현재 구현에서는 Keep‑Last‑N, Summary, Discard‑All 세 가지를 사용한다.
- **Lookahead Routing**: 각 관리된 컨텍스트에 대해 K턴(예: 5~10턴) 동안 실제 환경과 상호작용해 단기 성과를 관찰한다. 이후 원본 컨텍스트와 Lookahead 결과를 LLM에 입력해 가장 높은 기대 성공률을 보이는 분기를 선택한다. 선택되지 않은 분기는 즉시 폐기한다.
- 이 두 단계는 “상태 인식형 적응 라우팅”이라고 부르며, 현재 상태와 미래 행동을 동시에 고려한다는 점에서 정적 전략과 근본적으로 차별화된다.
5. **실험 설정**
- **벤치마크**: BrowseComp, BrowseComp‑ZH, Humanity’s Last Exam(HLE) 등 세 가지 장기 정보 탐색 벤치마크를 사용한다. 각 벤치마크는 200~800개의 샘플 작업을 포함한다.
- **모델 백본**: GPT‑OSS‑120B, DeepSeek‑v3.2, Tongyi‑DR‑30B‑A3B 등 다양한 오픈소스 LLM을 적용해 전략의 일반성을 검증한다.
- **비교 대상**: Baseline, Keep‑Last‑N, Summary, Discard‑All 등 기존 정적 컨텍스트 관리 방법을 동일한 인터랙션 턴 제한(200, 400, 600 등)에서 비교한다.
6. **주요 결과**
- **Pass@1**: 동일한 턴 제한(예: 400턴)에서 AgentSwing은 모든 백본에서 정적 전략 대비 평균 2~4%p 상승을 기록했다. 특히 제한된 턴(200턴)에서는 Discard‑All 대비 3배 이상의 턴 절감 효과를 보이며, Pass@1에서도 동등하거나 더 높은 성능을 달성했다.
- **η와 ρ**: AgentSwing은 η와 ρ 모두에서 정적 전략을 상회하거나 최소 하나의 축에서 크게 개선하였다. 특히 “Aligned Terminal Precision”에서는 다른 전략과 동일한 완료 집합에 대해 가장 높은 정확도를 보였다.
- **컨텍스트 회전 억제**: Figure 2에서 보듯, 컨텍스트 예산이 커질수록 정밀도가 감소하는 현상이 관찰되었으며, AgentSwing은 상황에 맞게 Discard‑All, Summary, Keep‑Last‑N을 전환함으로써 이 현상을 최소화한다.
7. **분석 및 토론**
- **전략 선택 메커니즘**: Lookahead 단계에서 LLM이 직접 각 분기의 단기 결과를 평가하도록 설계함으로써, 단순히 관리된 컨텍스트만을 비교하는 것이 아니라 실제 환경 피드백까지 반영한다. 이는 정적 전략이 놓치는 “미래 가치”를 포착한다는 점에서 중요한 설계 선택이다.
- **연산 비용**: 병렬로 여러 분기를 생성하고 K턴을 추가로 실행하는 비용이 존재하지만, 실험에서는 전체 턴 수가 크게 증가하지 않았으며, 오히려 효율적인 라우팅으로 전체 탐색 단계가 감소했다. 추후 연구에서는 분기 수와 Lookahead 길이를 동적으로 조정하는 메타‑라닝 기법이 제안될 수 있다.
- **범용성**: 다양한 모델과 베치마크에서 일관된 개선을 보였으며, 이는 AgentSwing이 특정 모델 아키텍처에 종속되지 않고, 컨텍스트 관리라는 일반적인 병목을 해결한다는 점을 시사한다.
8. **결론 및 향후 연구**
- 본 논문은 장기 웹 에이전트 성공을 η와 ρ라는 두 차원으로 정량화한 새로운 프레임워크를 제시하고, 이를 기반으로 정적 전략의 한계를 극복하는 적응형 병렬 라우팅 시스템 AgentSwing을 설계·평가하였다.
- 실험 결과는 AgentSwing이 정적 전략 대비 효율성·정밀도 모두에서 우수함을 입증했으며, 특히 제한된 인터랙션 턴 상황에서 큰 이점을 제공한다.
- 향후 연구는 (1) 더 다양한 컨텍스트 관리 전략(예: 학습 기반 요약, 지식 그래프 기반 압축) 추가, (2) 라우팅 정책을 강화학습이나 베이지안 최적화로 자동화, (3) 멀티‑에이전트 협업 시나리오에서의 확장성 검증 등을 제안한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기