광학 인‑네트워크 컴퓨팅으로 통신 비용을 없애는 OptINC

1. 연구 배경 및 문제 정의 대규모 딥러닝 모델, 특히 수백 억 파라미터에 달하는 LLM은 단일 GPU·서버로는 메모리·연산 한계 때문에 데이터·모델 병렬화를 통해 여러 서버에 분산 학습한다. 이때 각 서버는 매 배치마다 로컬 그래디언트를 교환·합산해야 하는데, 가장 널리 쓰이는 링‑올리듀스 알고리즘은 2(N‑1) 라운드의 통신을 요구한다. GPU 연산 속도가 네트워크 대역폭을 초과하는 현재 HPC·클라우드 환경에서는 통신이 전체 학습 시간의 80% 이상을 차지한다. 기존의 전기 스위치 기반 인‑네트워크 컴퓨팅(INC)은 O‑E‑O 변환으로 인한 전력·지연 손실과 버퍼링 문제를 안고 있다. 2. OptINC 아키텍처 개념 OptINC은 광학 회선망 자체에 계산 기능을 내장한다. 각 서버는 M개의 전·수신이 가능한 풀듀플렉스 광 트랜시버를 통해 2‑bit PAM4 신호(4‑레벨 진폭 변조)로 로컬 그래디언트를 인코딩한다. 인코딩된 신호는 광학 네트워크를 통과하면서, MZI 어레이로 구성된 광학 신경망(ONN) fθ에 의해 ‘평균 + 양자화’를 동시에 수행한다. ONN은 선형 가중치 행렬(유니터리·대각 행렬 근사)과 비선형 활성화(광학 논리 게이트 혹은 전기‑광 변환 후 디지털 연산)으로 구성된다. ONN 출력은 다시 각 서버에 동일하게 전송되는 분할 유닛(T)을 통해 복제된다. 3. 데이터 전처리 및 입력 차원 축소 N개의 서버가 전송하는 M개의 PAM4 신호 전체 조합은 2^(M·N) 개가 되며, 이는 ONN 학습에 비현실적인 데이터 규모다. 이를 해결하기 위해 전처리 유닛(P)에서 ⌈M/K⌉개의 신호를 평균내어 K(≤M)개의 값으로 압축한다. 압축된 값 A_k는 0~4·⌈M/K⌉‑1 범위에 정수형으로 존재하고, 정밀도는 1/N이다. 따라서 학습 데이터 규모는 O(2^K)로 크게 감소한다. 4. 하드웨어‑인식 가중치 설계 및 학습 MZI 어레이는 유니터리 행렬만을 구현할 수 있기 때문에, 일반적인 가중치 행렬 W를 SVD로 분해한 뒤, 각 서브 매트릭스 W_s를 ‘대각 행렬 Σ_a와 유니터리 행렬 U_a’의 곱으로 근사한다(식 4‑6). 이 방식은 하드웨어 면적을 약 50% 절감한다. 그러나 근사 오차가 발생하므로, 학습 과정에서 두 단계 손실 함수를 사용한다. 초기 단계(E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기