네트워크 집약형 LLM 추론을 위한 KVCache 로딩 최적화 엔진 CALVO

CALVO는 원격 KVCache 로딩을 GPU 연산과 동등한 1차 작업으로 취급해, 로딩·연산 단계들을 비동기 파이프라인화하고 로딩 지연을 서비스 비용에 포함시켜 스케줄링을 최적화한다. 실험 결과, 장기 컨텍스트 워크로드에서 SLO 달성률을 최대 61.67% 향상시켰다.

저자: Weiye Wang, Chen Chen, Junxue Zhang

네트워크 집약형 LLM 추론을 위한 KVCache 로딩 최적화 엔진 CALVO
본 논문은 대규모 언어 모델(LLM) 서비스에서 프리픽스 캐시를 활용해 이전에 생성된 KVCache를 재사용하는 기술이 널리 채택되고 있지만, 장기 컨텍스트와 짧은 질의가 결합된 ‘네트워크 집약형’ 추론 워크로드에서는 원격 노드에서 KVCache 블록을 로드하는 과정이 전체 지연의 대부분을 차지한다는 문제점을 제기한다. 기존 LLM 추론 엔진(vLLM, vLLM‑LMCache 등)은 KVCache 로딩을 GPU 연산 뒤에 순차적으로 수행하도록 설계돼, 로딩 단계가 진행되는 동안 네트워크·PCIe·GPU 자원이 유휴 상태가 되며 전체 자원 활용도가 낮다. 또한 스케줄러가 FIFO 혹은 연산량 기반 SJF만을 고려해 KVCache 로딩 비용을 무시함으로써 평균 TFT(Time‑to‑First‑Token)와 서비스 수준 목표(SLO) 달성률이 크게 저하된다. 이러한 문제를 해결하기 위해 CALVO라는 새로운 LLM 서빙 엔진을 제안한다. CALVO는 KVCache 로딩을 GPU 연산과 동등한 1차 작업으로 취급하고, 세 단계(L3→L2, L2→L1, GPU 연산)를 각각 독립적인 디스패처‑실행기 쌍으로 관리한다. 로딩 단계는 상위 단계의 메모리 할당이 완료되는 즉시 시작될 수 있도록 설계돼, 데이터 의존성이 충족되는 순간부터 파이프라인이 겹쳐 실행된다. 이를 통해 네트워크 전송, PCIe 복사, GPU 연산이 동시에 진행되어 자원 활용률이 크게 향상된다. 논문에서는 기존 vLLM‑LMCache 대비 각 단계의 처리량이 2배 이상 증가했음을 Figure 3·4를 통해 입증한다. 두 번째 핵심 기여는 서비스 비용 모델에 KVCache 로딩 지연을 명시적으로 포함한 것이다. 로딩 시간과 연산 시간을 선형 결합한 ‘바이너리 선형 비용 함수’를 정의하고, 이를 기반으로 스케줄러가 평균 TFT 최소화 혹은 SLO 달성률 최대화를 목표로 최적 순서를 계산한다. 실험에서는 로딩 시간이 긴 요청과 짧은 요청을 비교했을 때, 로딩 비용을 고려한 SJF 스케줄링이 평균 TFT를 0.49 s에서 0.41 s로 16% 감소시켰다. 시스템 구현은 vLLM 위에 LMCache와 연동해 이루어졌으며, 400 Gbps 네트워크와 8 GPU(각 80 GB HBM) 클러스터에서 Llama‑3.1‑8B 모델을 대상으로 LooGLE(평균 컨텍스트 28.1 K 토큰), ICL, Code 등 다양한 장기 컨텍스트 데이터셋을 테스트했다. 결과는 네트워크 집약형 워크로드에서 CALVO가 SLO 달성률을 최대 61.67% 끌어올리고, 평균 TFT도 30% 이상 감소시켰음을 보여준다. CALVO의 강점은 (1) 로딩·연산 파이프라인을 명확히 분리해 자원 활용을 극대화한 점, (2) 비용 모델에 로딩 지연을 포함해 스케줄링 품질을 실질적으로 개선한 점이다. 그러나 현재 로딩 단계가 단일 디스패처·실행기 구조에 의존해 높은 동시 요청 수에서 디스패처 자체가 병목이 될 가능성이 있다. 또한 KVCache 히트 비율이 낮은 경우에는 추가적인 디스패처 오버헤드가 오히려 성능을 저하시킬 수 있다. 향후 연구 방향으로는 (a) 다중 디스패처·실행기 기반의 스케일아웃 설계, (b) 동적 히트 비율 예측을 통한 로딩·연산 단계 가중치 자동 조정, (c) RDMA 기반 직접 GPU‑GPU 캐시 전송 등 네트워크 스택 최적화, (d) 다양한 모델·하드웨어 구성에 대한 일반화 검증 등을 제시한다. CALVO는 LLM 서비스가 점점 더 긴 컨텍스트와 높은 캐시 재사용을 요구하는 시대에, 네트워크와 컴퓨팅 자원을 균형 있게 활용함으로써 서비스 효율성을 크게 향상시킬 수 있는 실용적인 솔루션으로 평가된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기