고급 그리드 스케줄러를 위한 자원 및 애플리케이션 모델
본 논문은 이기종 그리드 환경에서 효율적인 자원 할당을 위해 컴퓨팅 노드와 애플리케이션을 각각 프로파일링하는 모델을 제안한다. SPEC cpu2000 기반의 정량적 성능 지표와 동적 부하 정보를 결합해 “구독된 부하” 개념을 도입하고, 이를 바탕으로 분산형 메타‑스케줄러와 Self‑Organized Resource Discovery(SORD) 프로토콜을 활용해 자원 매칭을 수행한다. 또한 경량 모니터링(Ganglia, NWS)과 무결성 감시(I…
저자: Aleks, ar Lazarevic, Lionel Sacks
논문은 오늘날 과학·비즈니스 분야에서 요구되는 방대한 연산 및 저장 자원을 효과적으로 제공하기 위해, 기존 그리드 인프라가 갖는 확장성·관리성·신뢰성 문제를 해결하고자 한다. 이를 위해 저자들은 두 가지 핵심 요소, 즉 컴퓨팅 노드와 애플리케이션을 각각 프로파일링하는 모델을 설계하고, 이를 기반으로 새로운 스케줄링 및 자원 발견 메커니즘을 제안한다.
첫 번째 단계는 노드 프로파일링이다. 노드의 정적 특성(OS, 라이브러리, 물리 메모리, 특수 하드웨어 등)은 XML 기반의 비휘발성 프로파일에 기록된다. 동적 특성(CPU 부하, 메모리 사용량, 네트워크 상태 등)은 주기적으로 재측정되어 휘발성 프로파일에 업데이트된다. 정량적 성능 평가는 SPEC® cpu2000 벤치마크를 사용해 노드의 연산 능력을 “SPEC 점수”라는 단위로 변환한다. 이 점수는 플랫폼 독립적이며, 다양한 하드웨어 간 비교가 가능하도록 설계되었다.
두 번째 단계는 애플리케이션 프로파일링이다. 각 애플리케이션은 고유 해시 키로 식별되며, 최초 실행 시 실행 시간, 필요 메모리, 입출력 패턴 등을 측정한다. 이후 실행마다 실제 소요 시간을 기록해 통계적 모델을 구축하고, 이를 통해 특정 시간·자원 제약 하에 작업이 완료될 확률을 추정한다. 이러한 프로파일은 XML 형태로 저장되며, 사용자에게는 투명하게 관리된다.
프로파일링 정보를 활용한 스케줄링은 두 단계로 나뉜다. 먼저 비휘발성 요구사항(운영체제, 라이브러리, 최소 메모리 등)을 만족하는 노드 집합을 필터링한다. 그 다음, Self‑Organized Resource Discovery(SORD) 프로토콜이 이 집합에 대해 분산 질의를 수행한다. SORD는 인접 노드와 일부 원거리 노드에 “입찰(bid)”을 요청하고, 각 노드는 자신의 “구독된 부하(subscribed load)”와 통계적 신뢰도(confidence level)를 기반으로 입찰 값을 반환한다. 구독된 부하는 해당 노드가 현재 수행 중인 작업들의 SPEC 점수와 예상 완료 시점을 누적한 값이며, 이는 순간적인 CPU 사용률보다 더 신뢰할 수 있는 가용 용량 추정치이다. 스케줄러는 가장 높은 가용 용량과 높은 신뢰도를 보이는 노드를 선택해 작업을 할당한다.
모니터링 인프라는 세 계층으로 구성된다. ① 회계·정책 계층에서는 MDS와 유사한 디렉터리 서비스가 작업 입·출력 시점에 요약 정보를 저장해 SLA 검증 및 사용량 과금에 활용한다. ② 실시간 부하 계층에서는 Ganglia와 Network Weather Service(NWS)가 각 노드에서 초당 수준의 경량 프로브를 전송해 현재 CPU·메모리·네트워크 상태를 전파한다. 이 정보는 SORD 입찰 계산에 직접 반영된다. ③ 무결성·보안 계층에서는 Java 기반 I³ 에이전트가 로컬에서 프로세스 행동을 지속적으로 감시하고, 비정상적인 CPU·메모리 사용 패턴을 탐지해 관리자에게 알린다.
이러한 설계는 중앙집중식 MDS가 초래하는 확장성 한계를 극복하고, 분산형 자원 발견·스케줄링을 가능하게 한다. 또한 “구독된 부하” 개념을 통해 OS 수준의 소프트 제한 스케줄러가 제공하지 못하는 예약·보장 기능을 통계적으로 보완한다.
논문은 또한 기존 연구와의 차별점을 강조한다. RISC 사이클 기반 모델이나 AppLeS와 같은 접근법은 사용자 개입이나 애플리케이션 재컴파일을 요구하거나 이기종 환경에 부적합했다. 반면 제안된 모델은 애플리케이션과 노드의 프로파일을 독립적으로 수집·갱신함으로써 이식성을 확보하고, 동적 부하에 대한 실시간 적응을 가능하게 한다.
마지막으로 향후 연구 방향으로는 Globus Toolkit 3 기반 메타‑스케줄러 구현, 실제 생산 그리드 클러스터에 대한 성능 평가, 그리고 메모리·I/O·네트워크 특성을 포함한 다차원 성능 모델링이 제시된다. 이러한 작업을 통해 제안된 프레임워크가 대규모 e‑Science 프로젝트와 상업적 그리드 서비스에 적용될 수 있는 기반을 마련하고자 한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기