언어모델의 성능 향상을 위한 도구 호출 최적화
📝 원문 정보
- Title: Optimizing Agentic Language Model Inference via Speculative Tool Calls
- ArXiv ID: 2512.15834
- 발행일: 2025-12-17
- 저자: Daniel Nichols, Prajwal Singhania, Charles Jekel, Abhinav Bhatele, Harshitha Menon
📝 초록 (Abstract)
언어 모델(LMs)은 외부 도구에 점점 더 의존하고 있습니다. LM 기반 에이전트는 파일 검색, 코드 실행, API 호출 등과 같은 환경 상호작용을 위해 이러한 도구를 자주 사용합니다. 또한 현대의 추론 기반 LMs은 웹 검색 및 Python 코드 실행과 같은 도구를 활용하여 그들의 추론 능력을 향상시킵니다. 그러나 이러한 도구들은 추론 과정에서 성능 병목을 일으키는 원인이 됩니다. 본 논문에서는 도구 호출 예측 및 인퍼런스 엔진에 있는 시퀀스를 최소한의 오버헤드로 유지하는 방법으로 이러한 성능 병목 현상을 해결하기 위한 새로운 시스템 최적화 기법을 제안합니다. 우리의 최적화는 LM 에이전트의 인퍼런스 호스팅에서 초당 수백 토큰의 처리량 향상 효과를 보여줍니다. 또한, 알고리즘에 대한 이론적인 분석을 제공하여 가장 우수한 성능을 얻기 위한 예측 구성 요소에 대한 통찰력을 제공합니다. 추가적으로, LM 공급자가 이러한 최적화를 쉽게 채택할 수 있도록 새로운 "도구 캐시" API 엔드포인트를 제안합니다.💡 논문 핵심 해설 (Deep Analysis)
본 논문은 언어 모델(LMs)의 성능 향상을 위해 도구 호출에 대한 최적화 방법을 제안하고 있습니다. LMs는 외부 도구와 상호작용하여 파일 검색, 코드 실행, API 호출 등을 수행하며, 이러한 작업들은 추론 과정에서 병목 현상이 발생할 수 있는 주요 원인입니다. 논문에서는 이 문제를 해결하기 위해 도구 호출을 예측하고 인퍼런스 엔진에 시퀀스를 최소한의 오버헤드로 유지하는 방법을 제안합니다.제안된 최적화 기법은 LM 에이전트의 처리량을 크게 향상시킵니다. 특히, 초당 수백 토큰의 처리량 향상을 보여주며, 이는 LMs가 복잡한 추론 작업을 수행할 때 중요한 성능 개선입니다. 논문은 또한 이러한 최적화 기법이 어떻게 작동하는지에 대한 이론적인 분석을 제공하여, 최적의 성능을 얻기 위한 예측 구성 요소를 이해하는데 도움을 줍니다.
또한, 논문에서는 LM 공급자가 이러한 최적화 기법을 쉽게 채택할 수 있도록 “도구 캐시” API 엔드포인트를 제안합니다. 이는 LMs가 외부 도구와의 상호작용을 효율적으로 관리하고, 이를 통해 성능을 향상시키는데 중요한 역할을 합니다.
📄 논문 본문 발췌 (Excerpt)
Reference
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.