데이터센터 작업 스케줄링을 위한 A2C 기반 딥 강화학습 스케줄러

본 연구는 데이터센터에서 발생하는 다차원 자원 할당과 작업 스케줄링 문제를 딥 강화학습으로 해결하고자 한다. 기존의 FCFS, 백필링, 우선순위 큐와 같은 전통적 스케줄링 기법은 설정이 복잡하고 유연성이 떨어진다는 한계가 있다. 최근 정책 기반 강화학습이 CPU·메모리 관리 등에 적용된 사례가 늘어나고 있지만, 정책 그라디언트의 높은 분산과 Monte‑Carlo 기반 업데이트의 연산 비용이 여전히 문제점으로 남아 있다. 이를 극복하기 위해 저자들은 Advantage Actor‑Critic(A2C) 알고리즘을 기반으로 한 A2cScheduler를 설계하였다. A2cScheduler는 두 개의 신경망, 즉 Actor와 Critic으로 구성된다. Actor는 현재 클러스터와 대기열의 상태를 입력받아 각 작업에 대한 선택 확률을 출력한다. 상태는 CPU, 메모리, I/O 사용량과 대기열·백로그의 작업 요구량을 매트릭스로 표현한 텐서이며, 공간적 정보를 보존하기 위해 3×3 필터를 갖는 Convolutional Neural Network(CNN) 구조를 사용한다. Critic은 동일한 상태와 선택된 액션을 입력으로 받아 가치 함수 V(s)를 추정한다. 이 가치 함수는 정책 업데이트 시 베이스라인으로 활용되어 Advantage A(s,a)=r+γV(s′)−V(s)를 계산하고, 그라디언트 분산을 크게 감소시킨다. 문제 정의는 강화학습의 전형적인 MDP 형태를 따른다. 상태 s_t는 클러스터 자원 할당 현황과 대기열·백로그 정보를 포함하고, 액션 a_t는 대기열에서 특정 작업을 선택하거나 빈 행동을 취하는 것을 의미한다. 전이 확률 P(s′|s,a)는 시뮬레이션 환경에 의해 결정되며, 보상 r_t는 작업 실행 시간 T_j의 역수(−1/T_j)로 정의되어 짧은 작업일수록 높은 보상을 받게 된다. 할인 인자 γ는 0과 1 사이의 값으로 미래 보상의 중요도를 조절한다. 학습 과정에서는 다단계 Temporal‑Difference(TD) 방법을 적용한다. 이는 Monte‑Carlo 방식보다 샘플 효율이 높으며, 실시간으로 들어오는 작업에 대해 저지연으로 파라미터를 업데이트할 수 있다. Actor의 파라미터 θ는 ∇θ log π(a|s;θ) · A(s,a) 로, Critic의 파라미터 w는 TD 오차 δ = r + γ V(s′;w) − V(s;w) 를 최소화하는 손실 L(w)=δ² 로 각각 업데이트된다. 알고리즘 1에 제시된 절차에 따라 에피소드마다 상태‑액션‑보상 트래젝터리를 수집하고, 이를 기반으로 네트워크를 반복 학습한다. 실험은 RTX‑2080 GPU 두 대와 i7‑9700K CPU를 갖춘 데스크톱 환경에서 TensorFlow로 구현되었다. 작업 도착은 Bernoulli 프로세스로 모델링했으며, 실제 데이터센터에서 수집한 작업 트레이스도 사용하였다. 실험 설정은 CPU와 메모리 두 자원만 고려했으며, 작업 유형은 Random, Tetris, Short‑Job‑First(SJF) 세 가지로 구분하였다. 평가 지표는 평균 작업 지연(slowdown)과 평균 대기시간으로 정의되었다. 표 1·2에 제시된 결과에 따르면, 작업 도착률이 0.9인 경우 A2cScheduler는 Random(5.50) 대비 2.03, Tetris(2.90) 대비 2.03, SJF(1.81) 대비 2.03의 지연 감소를 보였으며, 완성 시간과 대기시간에서도 유사하게 우수한 성능을 기록했다. 특히 높은 도착률(0.9)에서 기존 스케줄러가 포화 상태에 빠지는 반면, A2cScheduler는 다단계 TD와 베이스라인 보정 덕분에 안정적인 정책을 유지했다. 추가 실험에서는 Fully‑Connected(FC) 레이어와 CNN 레이어의 학습 수렴성을 비교하였다. FC 레이어는 상태 텐서를 평탄화하면서 공간 정보를 손실해 수렴하지 못했으며, 반면 CNN은 위치 정보를 보존해 빠르게 수렴하고 높은 성능을 달성했다. 이는 데이터센터와 같이 자원 배치가 공간적으로 의미를 갖는 환경에서 CNN 기반 상태 인코딩이 효과적임을 시사한다. 하지만 논문에는 몇 가지 한계점이 존재한다. 첫째, CPU와 메모리 두 자원만을 대상으로 하여 네트워크 I/O, 스토리지, GPU 등 다른 중요한 자원은 제외되었다. 둘째, 작업 간 의존성(예: DAG 형태)이나 다중 단계 워크플로우를 다루지 않아 실제 복합 워크로드에 대한 적용 가능성이 제한된다. 셋째, 하이퍼파라미터(학습률, 할인 인자, TD 단계 수 등)의 선택 과정이 상세히 기술되지 않아 재현성에 어려움이 있다. 넷째, 수천 노드 규모의 대규모 클러스터에 대한 확장성 실험이 부족해 실운영 환경에서의 성능을 예측하기 어렵다. 마지막으로, 정책의 해석 가능성 및 안전성 검증이 부족해 운영 중 발생할 수 있는 비정상 상황에 대한 대응이 미흡할 수 있다. 종합적으로, A2cScheduler는 A2C 기반 정책‑가치 통합 학습, 다단계 TD 업데이트, CNN 기반 상태 인코딩을 통해 기존 스케줄링 기법 대비 높은 효율성과 낮은 지연을 달성했으며, 데이터센터 자원 관리에 딥 강화학습을 적용하는 데 있어 중요한 실증적 증거를 제공한다. 향후 연구에서는 다자원·다종류 워크로드, 작업 의존성, 대규모 클러스터 확장성, 그리고 정책 안전성 검증을 포함한 확장된 프레임워크가 필요할 것이다.

데이터센터 작업 스케줄링을 위한 A2C 기반 딥 강화학습 스케줄러

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기