광학 인‑네트워크 컴퓨팅으로 통신 비용을 없애는 OptINC

OptINC은 데이터 병렬 학습에서 발생하는 링‑올리듀스 통신을 광학 회선망에 내장된 광학 신경망(ONN)으로 대체한다. MZI 기반의 가중치 행렬을 단위행렬·대각행렬로 근사하고, 하드웨어 인식 학습으로 정확도를 유지하면서 광학 전용 전처리·분할·합산 유닛을 설계한다. 실험 결과 ResNet‑50·CIFAR‑100 및 LLaMA·Wikipedia‑1B에서 기존 링‑올리듀스와 동등한 학습 정확도를 보이며 통신 오버헤드를 실질적으로 0으로 만든다.

저자: Sijie Fei, Grace Li Zhang, Bing Li

광학 인‑네트워크 컴퓨팅으로 통신 비용을 없애는 OptINC
1. 연구 배경 및 문제 정의 대규모 딥러닝 모델, 특히 수백 억 파라미터에 달하는 LLM은 단일 GPU·서버로는 메모리·연산 한계 때문에 데이터·모델 병렬화를 통해 여러 서버에 분산 학습한다. 이때 각 서버는 매 배치마다 로컬 그래디언트를 교환·합산해야 하는데, 가장 널리 쓰이는 링‑올리듀스 알고리즘은 2(N‑1) 라운드의 통신을 요구한다. GPU 연산 속도가 네트워크 대역폭을 초과하는 현재 HPC·클라우드 환경에서는 통신이 전체 학습 시간의 80% 이상을 차지한다. 기존의 전기 스위치 기반 인‑네트워크 컴퓨팅(INC)은 O‑E‑O 변환으로 인한 전력·지연 손실과 버퍼링 문제를 안고 있다. 2. OptINC 아키텍처 개념 OptINC은 광학 회선망 자체에 계산 기능을 내장한다. 각 서버는 M개의 전·수신이 가능한 풀듀플렉스 광 트랜시버를 통해 2‑bit PAM4 신호(4‑레벨 진폭 변조)로 로컬 그래디언트를 인코딩한다. 인코딩된 신호는 광학 네트워크를 통과하면서, MZI 어레이로 구성된 광학 신경망(ONN) fθ에 의해 ‘평균 + 양자화’를 동시에 수행한다. ONN은 선형 가중치 행렬(유니터리·대각 행렬 근사)과 비선형 활성화(광학 논리 게이트 혹은 전기‑광 변환 후 디지털 연산)으로 구성된다. ONN 출력은 다시 각 서버에 동일하게 전송되는 분할 유닛(T)을 통해 복제된다. 3. 데이터 전처리 및 입력 차원 축소 N개의 서버가 전송하는 M개의 PAM4 신호 전체 조합은 2^(M·N) 개가 되며, 이는 ONN 학습에 비현실적인 데이터 규모다. 이를 해결하기 위해 전처리 유닛(P)에서 ⌈M/K⌉개의 신호를 평균내어 K(≤M)개의 값으로 압축한다. 압축된 값 A_k는 0~4·⌈M/K⌉‑1 범위에 정수형으로 존재하고, 정밀도는 1/N이다. 따라서 학습 데이터 규모는 O(2^K)로 크게 감소한다. 4. 하드웨어‑인식 가중치 설계 및 학습 MZI 어레이는 유니터리 행렬만을 구현할 수 있기 때문에, 일반적인 가중치 행렬 W를 SVD로 분해한 뒤, 각 서브 매트릭스 W_s를 ‘대각 행렬 Σ_a와 유니터리 행렬 U_a’의 곱으로 근사한다(식 4‑6). 이 방식은 하드웨어 면적을 약 50% 절감한다. 그러나 근사 오차가 발생하므로, 학습 과정에서 두 단계 손실 함수를 사용한다. 초기 단계(E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기