세밀한 작업 스케줄링으로 MoE 추론 효율 극대화
읽는 시간: 5 분
...
📝 원문 정보
- Title: Efficient MoE Inference with Fine-Grained Scheduling of Disaggregated Expert Parallelism
- ArXiv ID: 2512.21487
- 발행일: 2025-12-25
- 저자: Xinglin Pan, Shaohuai Shi, Wenxiang Lin, Yuxin Wang, Zhenheng Tang, Wei Wang, Xiaowen Chu
📝 초록 (Abstract)
Mixture‑of‑Experts(MoE) 구조는 모델 규모를 서브선형적인 연산 증가로 확장할 수 있어 최신 대형 언어 모델에 널리 사용된다. 그러나 추론 시 키‑밸류(KV) 캐시 접근이 필요한 어텐션 레이어와 제한된 수의 전문가만 활용되는 전문가 레이어 때문에 메모리 사용량이 크게 늘어난다. 최근 연구는 어텐션 전용 GPU 그룹(AG)과 전문가 전용 GPU 그룹(EG)으로 작업을 분산하는 Disaggregated Expert Parallelism(DEP)을 도입해 효율성을 높이려 한다. 기존 DEP는 공유 전문가를 갖는 최신 MoE 모델을 충분히 지원하지 못하고, 복잡한 통신·연산 흐름을 가진 두 GPU 그룹에 대한 작업 스케줄링을 충분히 탐색하지 않아 성능이 제한된다. 이를 해결하기 위해 우리는 FinDEP라는 세밀한 작업 스케줄링 알고리즘을 제안한다. FinDEP는 (1) AG와 EG 양쪽에서 연산·통신 작업을 여러 작은 단위로 분할해 파이프라인을 구성하고, 공유 전문가 여부와 무관하게 적용 가능하도록 한다, (2) 다양한 작업 분할 규모와 순서를 지원하는 최적화 문제를 수식화한다, (3) 방대한 해 공간을 효율적으로 탐색해 근사 최적 스케줄을 도출하는 해결책을 제공한다. DeepSeek‑V2와 Qwen3‑MoE 두 대표 MoE 백본을 사용해 4가지 GPU 시스템에서 실험한 결과, FinDEP는 기존 최첨단 방법 대비 추론 처리량을 최대 1.61배 향상시켰으며, 32‑GPU 시스템에서도 최대 1.24배의 의미 있는 속도 향상을 달성했다.💡 논문 핵심 해설 (Deep Analysis)
본 논문은 현재 대형 언어 모델(Large Language Model, LLM)에서 핵심적인 역할을 하는 Mixture‑of‑Experts(MoE) 아키텍처의 추론 효율성을 크게 개선하고자 하는 실용적인 접근을 제시한다. MoE는 전문가(Expert) 라는 서브모델을 다수 보유하고, 입력 토큰당 활성화되는 전문가 수를 제한함으로써 모델 파라미터는 크게 늘리면서도 실제 연산량은 상대적으로 낮게 유지한다. 그러나 추론 단계에서는 두 가지 주요 병목이 존재한다. 첫째, 트랜스포머 어텐션 레이어에서 매 토큰마다 KV 캐시를 읽고 쓰는 과정이 메모리 대역폭을 크게 차지한다. 둘째, 전문가 레이어에서는 전체 전문가 중 일부만 선택적으로 활성화되므로, 선택되지 않은 전문가가 할당된 GPU 메모리를 비효율적으로 점유한다. 이러한 문제를 해결하기 위해 기존 연구는 Disaggregated Expert Parallelism(DEP)을 도입해 어텐션 연산을 담당하는 GPU 그룹(AG)과 전문가 연산을 담당하는 GPU 그룹(EG)으로 하드웨어를 물리적으로 분리하였다. 하지만 기존 DEP 구현은 최신 MoE 모델이 도입한 ‘공유 전문가(shared expert)’ 구조를 충분히 지원하지 못하고, 두 GPU 그룹 사이의 복잡한 통신·연산 흐름을 고려한 세밀한 작업 스케줄링을 제공하지 않는다. 결과적으로 GPU 자원의 활용률이 낮고, 파이프라인 단계 간 대기 시간이 발생해 전체 추론 속도가 제한된다.FinDEP는 이러한 한계를 극복하기 위해 세 가지 핵심 혁신을 제시한다.
- 작업 분할 및 파이프라인화: AG와 EG 양쪽에서 연산과 통신을 더 작은 작업 단위로 나누어, 서로 독립적인 작업이 동시에 진행될 수 있도록 한다. 이는 특히 공유 전문가가 존재할 경우, 동일 전문가에 대한 KV 캐시 접근과 전문가 연산이 겹치지 않도록 조정한다.
- 최적화 문제 정식화: 작업의 분할 정도와 실행 순서를 변수로 하는 수학적 최적화 모델을 구축한다. 목표는 전체 실행 시간(또는 처리량)을 최소화하면서 GPU 메모리 제한과 통신 대역폭 제약을 만족시키는 것이다. 이 모델은 이산형 결정 변수와 선형/비선형 제약조건을 포함해 매우 큰 해 공간을 만든다.
- 효율적인 근사 해 탐색 알고리즘: 완전 탐색은 현실적으로 불가능하므로, 저차원 히스토그램 기반의 그리디 스케줄링과 동적 프로그래밍을 결합한 휴리스틱을 설계한다. 이 알고리즘은 작업 간 의존성을 분석해 가능한 최대 중첩(overlap)을 찾아내며, 실험을 통해 근사 해가 최적 해에 근접함을 입증한다.
실험 설정은 두 가지 최신 MoE 백본(DeepSeek‑V2, Qwen3‑MoE)과 네 종류의 GPU 클러스터(예: 8‑GPU, 16‑GPU, 32‑GPU, 64‑GPU)로 구성되었다. 결과는 FinDEP가 기존 DEP 기반 스케줄러 대비 평균 1.3배, 최고 1.61배의 처리량 향상을 달성했으며, 특히 대규모 32‑GPU 환경에서도 1.24배의 가속을 유지한다는 점을 보여준다. 이는 작업을 더 세밀하게 분할하고, 통신·연산을 효과적으로 겹치게 함으로써 GPU 활용률을 크게 끌어올린 결과이다.
의의와 한계
FinDEP는 MoE 추론의 메모리·연산 병목을 구조적으로 해결함으로써, 차세대 초대형 언어 모델을 실제 서비스 환경에 적용할 수 있는 실용적인 길을 제시한다. 다만, 현재 구현은 정적 스케줄링에 기반해 사전에 작업 특성을 분석해야 하며, 입력 토큰 길이와 배치 크기에 따라 최적 스케줄이 달라질 수 있다. 실시간 워크로드 변화에 대응하는 동적 스케줄링이나, 멀티노드(클러스터 간) 환경에서의 네트워크 지연을 고려한 확장은 향후 연구 과제로 남는다.
향후 연구 방향
- 동적 작업 특성에 기반한 실시간 스케줄링 알고리즘 개발
- 멀티노드 환경에서의 네트워크 토폴로지를 활용한 글로벌 파이프라인 설계
- 공유 전문가 외에도 전문가 간 파라미터 공유·재사용을 고려한 메모리 압축 기법과의 통합
- 다양한 MoE 변형(예: 토큰‑레벨 라우팅, 스패스 라우팅)과의 호환성 검증
FinDEP는 MoE 모델의 추론 효율을 크게 끌어올리는 실용적인 솔루션으로, 대규모 AI 서비스의 비용 절감과 응답 시간 단축에 기여할 것으로 기대된다.
📄 논문 본문 발췌 (Excerpt)
Reference
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.