GPU 중심 데이터센터 유연성 민감도 분석

본 논문은 전력 가격 급등 시점에 에너지 인식 스케줄링 알고리즘을 적용해 GPU‑중심 데이터센터의 전력 유연성을 정량화한다. FIFO 백필링과 비교해 저전력·소규모 작업을 우선 배치함으로써 피크 가격 구간에 평균 전력 사용량을 최대 7% 감소시켰으며, 큐 길이가 짧고 작업 특성(GPU 활용도·작업 규모) 변동성이 클수록 유연성 잠재력이 크다는 것을 확인하였다. 가격 인센티브가 커질수록 유연성 효과는 급격히 상승하지만, 33% 감축을 위해서는 비…

저자: Yiru Ji, Constance Crozier, Matthew Liska

GPU 중심 데이터센터 유연성 민감도 분석
본 논문은 급증하는 GPU‑heavy 데이터센터의 전력 수요가 전력망 안정성에 미치는 영향을 고려하여, 에너지 인식 작업 스케줄링 알고리즘이 제공할 수 있는 ‘유연성(flexibility)’을 정량적으로 분석한다. 연구는 크게 네 부분으로 구성된다. 첫 번째는 배경 및 기존 연구 정리이다. 데이터센터 전력 소비가 전체 전력 수요의 약 10%에 달한다는 전망과 함께, 기존 스케줄링은 주로 처리량·지연·자원 활용도와 같은 전통적 성능 지표에 초점을 맞추었다. 최근에는 전력 비용·탄소 배출을 최소화하려는 에너지‑aware 스케줄링이 등장했으며, 이들 중 일부는 전력 가격 변동이나 재생에너지 활용을 고려한다. 그러나 GPU‑중심 워크로드에 특화된 유연성 잠재력을 체계적으로 측정한 연구는 부족했다. 두 번째는 제안된 스케줄링 모델이다. 저자는 두 단계 최적화를 설계한다. (1) 정적 24시간 윈도우 내에서 작업 시작 시점을 결정하는 정수선형계획(ILP) 모델을 구축한다. 목표 함수는 ‘수익 – 전력·냉각 비용’ 형태이며, 수익은 GPU‑시간당 가격(c_GPU)·GPU 수·작업 지속시간으로 계산한다. 전력 비용은 시간 가변 전력 가격(c_Elec)과 전체 전력(p_total) 의 곱이며, 냉각 비용은 전력 비용에 냉각 계수(α)를 곱해 포함한다. 제약식은 (i) 작업은 한 번만 시작, (ii) 도착 시점 이전 시작 금지, (iii) 최대 대기시간(t_wait) 내 시작, (iv) 노드 용량 초과 금지 등을 포함한다. (2) 롤링‑호라이즌 알고리즘은 전체 시뮬레이션 기간을 여러 개의 24시간 윈도우로 나누어, 각 윈도우마다 위 ILP를 풀고 결과를 다음 윈도우에 전달한다. 이를 통해 실시간 도착 작업을 반영하면서도 대규모 문제를 효율적으로 해결한다. 세 번째는 시뮬레이션 설계이다. 데이터센터는 100노드·노드당 4GPU, 최대 전력 3 kW·유휴 전력 0.9 kW, 냉각 계수 0.4 로 설정하였다. 작업 150개는 평균 지속시간 10시간(표준편차 6시간)이며, GPU 요청 수와 발생 확률 사이에 역관계를 두어 소규모 작업이 다수 발생하도록 했다. GPU 활용도 평균 0.6, 20% 작업이 조기 종료하는 상황을 반영하였다. 전력 가격은 기본 $0.45/kWh와 피크 $1.35/kWh(1시간 동안 3배 상승) 두 시나리오를 사용하였다. 네 번째는 실험 결과와 해석이다. 에너지 인식 스케줄링은 FIFO + backfilling 대비 피크 구간 평균 전력 소비를 약 7% 감소시켰으며, 전체 평균 전력 소비는 2~3% 정도 낮아졌다. 유연성은 큐 길이가 짧고 작업 GPU 활용도·노드 요구량의 분산이 클수록 크게 증가했으며, 이는 스케줄러가 저전력·소규모 작업을 피크 시점에 뒤로 미루고, 고전력 작업을 평시로 이동시킬 여지가 많아지기 때문이다. 가격 인센티브가 증가하면 유연성 효과는 비선형적으로 상승했지만, 33% 감축을 위해서는 $5/kWh 수준의 비현실적인 가격이 필요함을 보여준다. 결론적으로, GPU‑heavy 데이터센터는 작업 특성(GPU 활용도·규모)의 이질성이 클수록 전력 피크 완화에 기여할 수 있는 잠재력이 크다. 제안된 스케줄링은 전력 비용 절감과 동시에 데이터센터 수익을 유지하거나 향상시킬 수 있다. 다만, 모델이 완전한 사전 정보를 전제로 하고 있어 실제 운영에서는 작업 도착 예측 오차, SLA 위반 위험, 다중 전력 시장 참여 등 추가적인 제약을 고려해야 한다. 향후 연구는 확률적/강화학습 기반 스케줄링, 실시간 가격 예측, 다중 데이터센터 협력 최적화 등을 통해 현재 모델의 한계를 보완하고, 실제 전력 시장에서 데이터센터가 제공할 수 있는 수요 응답 서비스를 확대하는 방향으로 진행될 필요가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기