블루진 P와 시코텍스 SC5832에서 느슨하게 결합된 직렬 작업을 대규모로 실행하기 위한 기술
본 논문은 기존 애플리케이션을 수정하지 않고도 IBM Blue Gene/P와 SiCortex SC5832와 같은 페타스케일 슈퍼컴퓨터에서 수천 개의 직렬 작업을 동시에 실행할 수 있는 방법을 제시한다. 다중‑레벨 스케줄링, 고속 태스크 디스패처(Falkon), 그리고 RAM‑디스크 기반 캐싱을 결합해 I/O 병목을 최소화하고, 4 000 ~ 5 800 코어 규모에서 초당 수천 개 태스크 처리율과 90 % 이상의 자원 효율을 달성하였다.
저자: ** Ioan Raicu*, Zhao Zhang+, Mike Wilde#+
본 논문은 대규모 슈퍼컴퓨터인 IBM Blue Gene/P와 SiCortex SC5832에서 기존 직렬 애플리케이션을 수정 없이 대량으로 실행할 수 있는 방법을 연구한다. 전통적인 슈퍼컴퓨터는 고속 인터커넥트와 MPI 기반의 긴밀히 결합된 병렬 프로그램에 최적화돼 있어, 파일 기반 데이터 교환을 이용하는 느슨하게 결합된 워크플로우는 자원 활용도가 낮고 I/O 병목이 심각했다. 이를 해결하기 위해 저자들은 세 가지 핵심 메커니즘을 도입했다.
첫 번째는 다중‑레벨 스케줄링이다. Blue Gene/P의 로컬 리소스 매니저(Cobalt)는 PSET라는 64 노드 + 1 I/O 노드 단위로만 할당을 허용한다. 저자들은 PSET 전체를 할당받은 뒤, 내부에서 코어 단위로 태스크를 배치함으로써 단일 코어 작업도 100 %에 가까운 활용도를 달성했다. 이는 기존에 PSET당 하나의 MPI 작업만 실행하던 방식과는 근본적으로 다르며, 부팅 비용을 여러 작업에 걸쳐 amortize함으로써 초기 오버헤드를 최소화한다.
두 번째는 Falkon이라는 경량 태스크 디스패처를 이용한 고속 작업 전송이다. Falkon은 리소스 프로비저닝과 태스크 디스패치를 분리하고, 전용 워커 프로세스를 통해 초당 3 000 ~ 4 000개의 태스크를 전송한다. 실험 결과, 기존 PBS·Condor가 1 ~ 10 tasks/sec 수준에 머물렀던 반면, Falkon은 1 K tasks/sec 이상을 지속적으로 제공했다. 이러한 고속 디스패치는 짧은 실행 시간(수 초) 태스크에서도 높은 자원 효율을 유지하게 만든다.
세 번째는 광범위한 캐싱 전략이다. Blue Gene/P와 SiCortex는 로컬 RAM‑디스크와 공유 파일시스템(GPFS, NFS)을 동시에 제공한다. 저자들은 실행 파일, 스크립트, 정적 입력 데이터를 RAM‑디스크에 미리 복사하고, 중간 결과는 일정량이 모일 때만 공유 파일시스템에 기록하도록 설계했다. 이로 인해 파일 시스템에 대한 동시 접근이 크게 감소하고, I/O 대기시간이 최소화되어 전체 실행 효율이 95 % 이상으로 유지되었다.
논문은 두 개의 실제 워크플로우—경제 에너지 모델링과 분자 동역학—에 이 기술을 적용했다. 두 도메인 모두 수천 개의 독립적인 직렬 작업으로 구성되어 있었으며, 4 096 코어 BG/P와 5 832 코어 SiCortex에서 각각 4 초, 8 초 길이의 작업이 94 % 이상의 효율을 보였다. 또한 마이크로벤치마크를 통해 4 000 ~ 5 800 코어 규모에서 초당 수천 개 태스크를 지속적으로 처리할 수 있음을 입증했다. 이론적 모델을 사용해 태스크 길이와 디스패치 레이트 간의 관계를 분석한 결과, 160 K 코어 규모에서도 10 K tasks/sec 수준의 디스패치가 90 % 이상의 효율을 유지한다는 점을 확인했다.
결론적으로, 본 연구는 기존 HPC 시스템을 HTC 워크로드에 적용하기 위한 실용적인 설계 원칙을 제시한다. 다중‑레벨 스케줄링, 고속 디스패처, 그리고 효율적인 캐싱을 결합함으로써, 파일 기반 데이터 교환을 사용하는 느슨하게 결합된 애플리케이션도 페타스케일 슈퍼컴퓨터에서 높은 자원 활용도와 짧은 턴어라운드 타임을 달성할 수 있음을 실증했다. 이는 향후 엑사스케일 컴퓨팅 환경에서 데이터‑중심 과학 워크플로우를 효율적으로 실행하는 데 중요한 기반이 될 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기