메모리 스토어 라우팅으로 비용 절감과 정확도 향상

본 논문은 다중 스토어를 갖는 메모리‑증강 에이전트에서 모든 스토어를 무조건 조회하는 기존 방식의 비효율성을 지적하고, 질의에 따라 필요한 스토어만 선택하는 “스토어 라우팅” 문제를 정의한다. 커버리지, 정확도 일치, 토큰 낭비 등 3가지 메트릭을 제시하고, 합성 라벨링과 실제 LLM 기반 QA 실험을 통해 오라클 라우터가 토큰 사용량을 60% 이상 절감하면서 정확도를 높임을 입증한다. 또한 라우팅을 비용‑민감 서브셋 선택 문제로 수식화해, λ…

저자: Madhava Gaikwad

본 논문은 메모리‑증강 에이전트가 여러 개의 특화된 스토어를 보유하고 있음에도 불구하고, 대부분의 시스템이 질의마다 모든 스토어를 무조건 조회하는 비효율적인 방식을 사용한다는 점을 문제 제기로 삼는다. 이러한 “Uniform Retrieval”은 두 가지 주요 비용을 초래한다. 첫째, 답변에 필요하지 않은 스토어를 조회함으로써 연산 자원을 낭비한다. 둘째, 불필요한 토큰이 컨텍스트에 추가돼 신호‑대‑소음 비율이 낮아지면서 LLM의 정확도가 저하될 위험이 있다. 이를 해결하기 위해 저자는 “스토어 라우팅”이라는 새로운 문제 정의를 제시한다. 질의 q가 주어지면 라우팅 정책 π가 스토어 집합 ˆG⊆S를 선택하고, 선택된 스토어만을 조회해 LLM에 전달한다. 이때 스토어는 네 가지로 구분된다: 단기 메모리(STM), 요약 스토어(Sum), 장기 메모리(LTM), 에피소드 메모리(Epi). 각 스토어는 서로 다른 의미론적 역할을 가지며, 질의 유형에 따라 필요한 스토어가 달라진다. 라​우팅 품질을 정량화하기 위해 세 가지 메트릭을 도입한다. 커버리지(Coverage)는 정답에 필요한 모든 스토어가 포함됐는지를 측정하고, 정확히 일치(Exact Match, EM)는 선택된 스토어 집합이 정답 집합과 완전히 동일한지를 평가한다. 낭비(Waste)는 선택된 불필요한 스토어 수를 세어 토큰 비용의 프록시로 사용한다. 또한 실제 비용을 토큰 수로 직접 측정해, 라우팅이 비용‑효율에 미치는 영향을 정량화한다. 핵심 이론적 기여는 라우팅을 비용‑민감 서브셋 선택 문제로 수식화한 것이다. 각 스토어 s에 대한 비용 c_s(예: 토큰 수, 접근 지연)를 정의하고, 질의 q에 대해 기대 정확도 Acc(q, G)를 추정한다. 라우팅 정책은 λ라는 트레이드오프 파라미터를 통해 “E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기