일관성을 유지하면서도 고성능을 구현한 제한 비동기 파라미터 서버

본 논문은 분산 머신러닝에서 파라미터 서버의 일관성 모델을 완화하면서도 알고리즘 수렴을 보장하는 세 가지 새로운 모델(CAP, VAP, CVAP)을 제안한다. 이 모델들은 “시계(bound) 기반 비동기”, “값(value) 기반 비동기”, 그리고 두 가지를 결합한 형태로, 기존의 순차 일관성이나 완전 무일관성보다 높은 처리량을 제공한다. 이론적 증명을 통해 확률적 경사 하강법(SGD)의 수렴을 보이고, 토픽 모델링 실험을 통해 실용성을 검증한…

저자: Jinliang Wei, Wei Dai, Abhimanu Kumar

본 논문은 분산 머신러닝 시스템에서 파라미터 서버(Parameter Server, PS)의 일관성 모델을 재고하고, 기존의 강한 일관성(순차 일관성, 선형화)과 완전 무일관성(베스트‑에포트) 사이에 위치하는 세 가지 새로운 일관성 모델을 제안한다. 저자들은 많은 ML 알고리즘이 “반복 수렴(iterative convergent)” 특성을 가지며, 일정 수준의 불일치(staleness)와 값 차이(value deviation)를 허용해도 수렴한다는 사실을 관찰하고, 이를 이론적으로 정량화한다. ### 1. 배경 및 문제 정의 분산 ML에서는 파라미터를 여러 워커에 복제해 네트워크 오버헤드를 줄인다. 복제된 파라미터 간 일관성을 유지하는 방법은 시스템 성능과 알고리즘 정확도에 직접적인 영향을 미친다. 기존 데이터베이스에서 차용한 강한 일관성 모델은 동기화 장벽을 만들어 CPU·네트워크 활용도를 크게 낮춘다. 반면, YahooLDA와 같이 일관성을 거의 보장하지 않는 모델은 높은 처리량을 보이지만, 스트래거러, 네트워크 포화 등 악조건에서 수렴이 보장되지 않는다. 최근 SSP(Stale Synchronous Parallel) 모델은 “bounded staleness”를 도입해 일정 정도의 비동기성을 허용하면서도 수렴을 증명했지만, SSP는 동기화 단계에서만 업데이트를 전파한다는 제한이 있다. ### 2. 제안 모델 #### 2.1 CAP (Clock‑bounded Asynchronous Parallel) - **시계 기반**: 각 워커는 정수형 시계 c를 유지하고, 업데이트는 시계 구간

일관성을 유지하면서도 고성능을 구현한 제한 비동기 파라미터 서버

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기