대형 언어 모델 추론을 위한 GPU 플릿 용량 계획 대기열 이론 기반 시뮬레이터

GPU 플릿을 어떻게 구성해야 LLM 추론 서비스의 P99 응답 시간을 보장하면서 비용을 최소화할 수 있는지에 대한 해답을 제시한다. M/G/c 대기열 모델과 이산 이벤트 시뮬레이션을 결합한 두 단계 최적화 과정을 통해 토큰 길이 분포, 라우팅 정책, 하드웨어 특성을 동시에 고려한다. 실제 워크로드와 다양한 GPU 종류(A10G, A100, H100)를 사용한 사례 연구에서 기존 분석이 놓치는 최적의 split 임계값, 비용 효율적인 GPU 선…

저자: Huamin Chen, Xunzhuo Liu, Yuhan Liu

본 논문은 대형 언어 모델(LLM) 추론 서비스를 위한 GPU 플릿 용량 계획 문제를 다루며, 기존 연구가 엔진‑레벨 최적화에 머물러 플릿 규모 결정이라는 근본적인 질문을 놓치고 있음을 지적한다. 저자는 “inference‑fleet‑sim”이라는 도구를 제안하는데, 이는 M/G/c 대기열 이론과 이산 이벤트 시뮬레이션(DES)을 결합한 두 단계 최적화 파이프라인으로 구성된다. 첫 번째 단계인 분석적 스윕에서는 Kimura의 2‑모멘트 근사를 이용해 각 후보 구성을 빠르게 평가한다. 여기서는 요청 도착률 λ, 서비스 시간 평균 E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기