경로제한 혼합전문가 모델

본 논문은 기존 MoE(Mixture‑of‑Experts) 라우팅이 층마다 독립적으로 전문가를 선택해 N^L 개의 가능한 경로를 만들며 데이터 양에 비해 통계적 비효율성을 초래한다는 문제를 지적한다. 저자들은 연속된 층들 사이에 라우터 파라미터를 공유하는 “PathMoE” 방식을 제안하고, 0.9 B와 16 B 규모 모델에서 퍼플렉시티와 다운스트림 성능이 향상되고 부하 균형 손실이 불필요함을 실증한다. 또한 경로 기반 분석을 통해 동일 경로를 …

저자: Zijin Gu, Tatiana Likhomanenko, Vimal Thilak

경로제한 혼합전문가 모델
본 논문은 대규모 언어 모델에서 효율적인 파라미터 활용을 위해 널리 사용되는 Sparse Mixture‑of‑Experts(MoE) 구조의 근본적인 한계를 지적한다. 기존 MoE는 각 층마다 독립적인 라우터를 두어 입력 토큰을 상위 k 개의 전문가에게 할당한다. 이때 전문가 선택은 층 l 마다 별도의 가중치 W_l 에 의해 결정되며, N개의 전문가가 L층에 존재할 경우 가능한 전문가 경로(전문가 선택 시퀀스)의 수는 N^L 에 달한다. 예를 들어 24층·16전문가 모델은 약 10^29 개의 경로를 만들지만, 실제 학습 데이터는 수백억 토큰에 불과하다. 따라서 대부분의 경로는 전혀 학습되지 못하고, 모델은 통계적으로 비효율적인 상태에 놓인다. 저자들은 이러한 “경로 폭발” 문제를 해결하기 위해 라우터 파라미터를 연속된 층들 사이에 공유하는 “PathMoE”를 제안한다. 구체적으로 L개의 MoE 층을 블록 크기 B (예: 4, 8)로 나누어, 같은 블록에 속한 모든 층이 동일한 라우터 W_b 를 사용한다. 이는 라우터 함수 자체는 동일하지만, 각 층의 입력 표현 x_l 이 다르기 때문에 라우팅 결과는 완전히 동일하지 않으며, “블록‑내 일관성”을 유지한다. 이 설계의 이론적 효과는 정보이론적 분석을 통해 설명된다. 라우팅 엔트로피 H(E) 는 각 층의 조건부 엔트로피 H(E_l|E_{l‑1}) 의 합으로 표현될 수 있다. 독립 라우팅에서는 층 사이의 상호 정보 I(E_l;E_{l‑1}) 가 거의 0에 가깝지만, PathMoE에서는 같은 라우터 파라미터와 잔차 연결로 인한 표현 유사성 때문에 I(E_l;E_{l‑1}) 가 크게 증가한다. 결과적으로 H(E) 가 감소하고, 실험에서는 22.20 bit에서 21.14 bit로 약 1 bit 감소가 관측되었다. 이는 효과적인 경로 공간이 절반 수준으로 축소된 것과 동등하며, 각 경로에 더 많은 학습 신호가 전달되어 샘플 효율성이 향상된다. 실험은 두 규모의 모델(0.9 B 전체 파라미터, 16 B 전체 파라미터)에서 수행되었다. 0.9 B 모델은 0.37 B 활성 파라미터(16전문가, top‑4 라우팅)로 FineWeb‑100B 데이터셋을 400k 스텝 학습하였다. PathMoE는 부하 균형 손실 L_aux 을 제거했음에도 불구하고 전문가 활용이 고르게 유지되었으며, 이는 라우터 파라미터 공유가 자연스럽게 균형을 유도하기 때문이다. 성능 지표는 언어 모델링 퍼플렉시티와 여러 다운스트림 벤치마크(ARC‑E, BoolQ, HSWAG, LAMBADA, OBQA, PIQA, SocialIQA, WinoGrande 등)에서 보고되었다. PathMoE는 평균 퍼플렉시티를 55.71 → 55.71 (소폭 개선)에서 66.74 → 66.74 (동일 수준)으로 유지하면서, 대부분의 베이스라인 대비 0.5 ~ 2 포인트의 퍼플렉시티 감소와 정확도 향상을 기록했다. 특히, “MonoB8‑MoE”, “PathB8‑MoE”, “PathB4‑MoE” 등 다양한 블록 크기 변형에서도 일관된 이득이 확인되었다. 추가 분석에서는 동일 경로를 따르는 토큰이 언어적 기능(구두점, 고유명사, 시간 표현 등)별로 군집화되는 현상이 발견되었다. PathMoE는 이러한 군집을 더 집중된 형태(클러스터 내 엔트로피 감소)로 만들었으며, 이는 전문가가 특정 언어 현상을 보다 명확히 전문화할 수 있음을 의미한다. 라우팅 교란 실험에서는 독립 라우팅 대비 22.5배 높은 강인성을 보였으며, 이는 경로 일관성이 높아 전문가가 입력 변동에 대해 안정적인 출력을 유지하기 때문이다. 논문의 기여는 다음과 같다. 1) MoE 라우팅의 경로 공간을 정량적으로 분석하고, N^L 의 폭발적 규모가 실제 학습에 비효율적임을 입증. 2) 블록‑단위 라우터 파라미터 공유라는 간단하면서도 효과적인 설계인 PathMoE를 제안, 부하 균형 손실을 제거하고도 균형 잡힌 전문가 활용을 달성. 3) 실험을 통해 다양한 모델 규모와 벤치마크에서 일관된 성능 향상을 확인. 4) 토큰‑경로 군집 분석과 라우팅 강인성 평가를 통해 PathMoE가 전문가 특화와 협업을 촉진함을 증명. 향후 연구 방향으로는 블록 크기의 자동 최적화, 다중‑경로(top‑k > 1)와의 결합, 그리고 이미지·음성 등 비언어 데이터에 대한 일반화 가능성 탐색이 제시된다. 또한 라우터 파라미터 공유와 기존의 정규화·다양성 촉진 기법(예: aux loss, 스패싱) 사이의 상호 작용을 조사함으로써 MoE 설계 공간을 더욱 풍부하게 만들 수 있을 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기