희소 딥 뉴럴 네트워크 그래프 챌린지: 대규모 추론 성능 측정 플랫폼

본 논문은 그래프와 희소 데이터 분석 커뮤니티를 위한 새로운 벤치마크인 “Sparse Deep Neural Network Graph Challenge”를 제안한다. 서론에서는 현재 딥러닝 모델이 수십억 파라미터에 달하면서 메모리와 연산 비용이 급증하고 있음을 지적하고, 이를 완화하기 위한 희소화 연구가 활발히 진행되고 있음을 소개한다. 기존의 그래프 벤치마크(Graph500, PageRank Pipeline, miniTri 등)와 머신러닝 챌린지(MNIST, ImageNet, YOHO) 등을 결합해, 희소 DNN 추론을 표준화된 그래프 문제로 정의한다. 두 번째 섹션에서는 DNN의 수학적 배경을 정리한다. 전방 전파는 y^{ℓ+1}=h(y^{ℓ}W^{ℓ}+b^{ℓ}) 로 표현되며, 여기서 y^{ℓ}는 행벡터, W^{ℓ}는 희소 가중치 행렬, b^{ℓ}는 편향 벡터이다. 비선형 함수 h는 ReLU와 상한 32를 동시에 적용한다. 배치 연산을 위해 Y^{ℓ} 행렬 형태로 확장하고, 행렬-벡터 곱을 좌측에서 수행한다. 이때 W^{ℓ}(i,j)≠0이면 그래프의 엣지(i→j)로 해석한다. 이러한 정의는 GraphBLAS 표준을 그대로 적용할 수 있게 하며, 다양한 프로그래밍 환경에서 동일한 연산 모델을 구현하도록 설계되었다. 세 번째 섹션에서는 챌린지에 사용되는 합성 DNN 구조를 설명한다. 레이어 수(L), 각 레이어의 뉴런 수(N), 그리고 희소도(sparsity level)를 사용자가 자유롭게 설정할 수 있다. 레퍼런스 구현에서는 L=4, N≈1024 정도의 네트워크를 사용했으며, 가중치 행렬의 비제로 비율을 1%~10% 수준으로 조정했다. 이러한 파라미터 조합을 통해 메모리 사용량과 연산량을 정밀하게 제어할 수 있다. 네 번째 섹션에서는 입력 데이터셋을 상세히 기술한다. MNIST 손글씨 이미지(28×28 픽셀)를 784 차원의 피처 벡터로 변환하고, 이를 여러 레이어에 걸쳐 희소 가중치와 편향을 적용한다. 입력 피처와 가중치 모두 32비트 정수형으로 제한해 메모리 효율을 높였으며, h 함수의 상한 32는 오버플로우 방지를 위한 설계이다. 검증 단계에서는 각 입력에 대해 최종 출력 벡터를 계산하고, 정답 라벨과 비교해 정확도를 평가한다. 다섯 번째 섹션에서는 챌린지 수행 절차와 예제 코드를 제공한다. 데이터 로딩 → 그래프(희소 행렬) 구축 → 배치 전방 전파 → 결과 검증 순으로 진행된다. 예제 코드는 Python(NumPy+SciPy)와 C(GraphBLAS) 두 가지 버전으로 제공되며, 병렬화는 OpenMP와 MPI를 이용해 구현했다. 또한, GPU 가속을 위한 CUDA 구현도 포함되어 있다. 여섯 번째 섹션에서는 성능 평가 지표를 정의한다. 실행 시간, 메모리 사용량, 연산 효율(플롭스/와트), 엣지 처리량, 그리고 스케일 아웃(노드 수 증가에 따른 효율) 등을 측정한다. 레퍼런스 구현에서는 단일 CPU 코어에서 0.8 GFLOPS, 8코어에서 5.6 GFLOPS, GPU에서는 45 GFLOPS를 달성했으며, 희소도 1%일 때 메모리 사용량이 밀집 구현 대비 90% 감소함을 보고했다. 마지막으로 결론에서는 챌린지의 확장 가능성을 논의한다. 현재는 MNIST 기반 작은 규모 DNN을 대상으로 하지만, 향후에는 수백만 뉴런·수십억 파라미터 규모의 합성 DNN과 실시간 스트리밍 데이터셋을 포함한 확장된 벤치마크를 제공할 계획이다. 또한, 새로운 하드웨어(ASIC, FPGA)와 소프트웨어(커스텀 스케줄러, 새로운 그래프 연산자)와의 비교 연구를 촉진하기 위해 공개된 데이터와 레퍼런스 코드를 지속적으로 업데이트할 예정이다. 전체적으로 이 챌린지는 그래프와 AI 커뮤니티가 협업해 희소 DNN의 성능 한계를 정량화하고, 차세대 고성능 AI 시스템 설계에 기여할 수 있는 중요한 플랫폼을 제공한다.

희소 딥 뉴럴 네트워크 그래프 챌린지: 대규모 추론 성능 측정 플랫폼

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기