멀티 블록 접근 방식의 독립 마스터 노드 도입으로 공용 클러스터 성능 향상
LIPI 공용 클러스터에 기존의 단일 마스터 노드 기반 멀티 블록 구조를 개선하여, 블록당 독립 마스터 노드를 배치하고 서비스·I/O 네트워크를 물리적으로 분리하였다. Gigabit‑LAN을 활용한 I/O 채널은 데이터‑집중형 작업에서 지연을 크게 감소시켰으며, 실험 결과는 기존 Fast‑Ethernet 기반 구조에 비해 라운드‑트립 시간이 2~3배 이상 향상됨을 보여준다.
저자: ** Z. Akbar, L.T. H, oko *Group for Theoretical
본 논문은 인도네시아 LIPI에서 운영 중인 공용 클러스터(LIPI Public Cluster, 이하 LPC)의 구조적 한계를 극복하고자 제안된 ‘독립 마스터 노드 기반 멀티 블록’ 접근법을 상세히 기술한다.
1. **배경 및 기존 구조**
LPC는 교육·연구용으로 개방된 클러스터로, 초기 설계에서는 모든 블록이 하나의 마스터 노드를 공유하는 ‘멀티 블록’ 방식을 채택하였다. 각 블록은 디스크리스 부팅을 위해 MPD 데몬을 사용하고, 마스터 노드가 사용자 접근의 유일한 관문 역할을 수행한다. 이 설계는 하드웨어(스토리지 부재)와 관리 효율성 측면에서 장점을 제공했으며, 소규모(수 노드) 블록에서는 충분히 안정적인 운영이 가능했다. 그러나 데이터‑집중형 작업(예: 이미지 매핑)에서는 노드 간 대량 데이터 교환이 필요하고, 단일 마스터가 I/O 트래픽을 모두 처리하게 되면서 네트워크 병목과 성능 저하가 발생한다는 문제가 제기되었다.
2. **새로운 아키텍처 설계**
최근 하드웨어 업그레이드로 모든 노드에 스토리지를 장착하면서, 논문은 블록당 독립 마스터 노드를 두는 구조로 전환한다. 전체 시스템은 크게 두 개의 물리적 네트워크로 분리된다.
- **서비스 채널**: 기존 Fast‑Ethernet(100 Mbps) 기반으로 유지되며, 웹, SSH, 모니터링, 공통 바이너리·컴파일러 저장소 등을 제공한다.
- **I/O 채널**: Gigabit‑LAN(1 Gbps)으로 구축되어, NFS·NIS·사용자 홈 디렉터리와 같은 대용량 데이터 전송을 전담한다.
마스터 노드는 각각 서비스 서버와 I/O 서버에 연결되어, 사용자 명령을 해당 블록의 마스터로 전달하고 결과를 다시 서비스 채널을 통해 반환한다. 이렇게 함으로써 데이터‑집중형 작업이 서비스 채널에 영향을 주지 않으며, 블록 간 논리적 독립성도 유지된다.
3. **운영 절차 및 자원 할당**
사용자가 클러스터에 등록하면 관리자는 작업 유형(프로세서‑집중형 vs I/O‑집중형)을 판단하고, 적절한 블록 유형을 할당한다. 현재는 두 유형을 동시에 운영할 수 없으며, 하나의 모드만 선택한다. 향후 동적 전환 메커니즘을 구현하여, 사용자의 요구에 따라 블록 구성을 자동으로 전환하는 방안을 모색하고 있다.
4. **성능 평가**
기존 멀티 블록 구조와 새 구조의 성능 차이를 검증하기 위해, 동일 사양(4노드) 블록 두 개를 이용한 ping‑pong 테스트를 수행하였다. 테스트는 LAM‑MPI를 사용했으며, 메시지 크기를 33 MB까지 늘려 Fast‑Ethernet과 Gigabit‑LAN의 라운드‑트립 시간을 비교하였다. 결과는 다음과 같다.
- Fast‑Ethernet에서는 33 MB 이상의 메시지 전송 시 신뢰성이 급격히 저하되고 지연이 크게 증가한다.
- Gigabit‑LAN은 1 GB 규모까지 안정적인 전송을 유지하며, 평균 라운드‑트립 시간이 Fast‑Ethernet 대비 2~3배 가량 단축된다.
- 두 블록을 동시에 운용했을 때도 Gigabit‑LAN이 일관된 성능 향상을 보였다.
이러한 실험 결과는 독립 마스터와 네트워크 분리가 데이터‑집중형 워크로드에서 병목을 효과적으로 해소함을 입증한다.
5. **결론 및 향후 과제**
논문은 독립 마스터 기반 멀티 블록 구조가 공용 클러스터에서 I/O‑집중형 작업의 성능을 크게 개선한다는 점을 강조한다. 또한, 기존의 컨벤셔널 멀티 블록 방식과 병행하여 동적으로 전환할 수 있는 시스템을 구축한다면, 다양한 사용자 요구를 동시에 만족시킬 수 있을 것으로 기대한다. 향후 연구 과제로는 (1) 블록 전환 자동화 알고리즘 개발, (2) 마스터 노드의 고가용성(HA) 구현, (3) 대규모 노드 확장 시 네트워크 토폴로지 최적화 등이 제시된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기