모듈형 학습으로 강인한 생성 모델 만들기

본 논문은 대규모 생성 모델을 전체 재학습 없이도 여러 도메인‑전문가 모델을 조합해 강인한 성능을 달성할 수 있는 이론적·실험적 프레임워크를 제시한다. 먼저, 각 도메인에 대해 사전 학습된 전문가 π_k (k=1…p)를 가정하고, 입력 x 에 따라 가중치 g(x,k) 를 부여하는 게이트 g 를 도입한다. 이때 g 는 모든 x 에 대해 확률 단순체에 속하고, 전체 모델 π_g(x)=∑_k g(x,k)π_k(x) 가 올바른 확률 분포가 되도록 전역 정규화 제약 Z_g=∑_{x,k} g(x,k)π_k(x)=1을 만족한다. 이러한 정규화된 게이트 집합을 G₁ 이라 정의하고, G₁이 비공집합·볼록·콤팩트함을 증명한다. 논문의 핵심 질문은 두 가지이다. (1) 고정된 데이터 혼합 λ 에 대해 최적 게이트 g_λ 가 존재하고, 그 KL 발산 D_{KL}(p_λ‖π_{g_λ}) 가 각 전문가의 개별 오차 ε_k 에 비해 얼마나 작은지를 분석한다. (2) 모든 가능한 혼합 λ∈Δ 에 대해 동일한 단일 게이트 g* 가 최악의 경우에도 작은 KL 발산을 보장할 수 있는지, 즉 최소‑최대 게임 min_{g∈G₁} max_{λ∈Δ} D_{KL}(p_λ‖π_g) 의 해가 존재하는지를 조사한다. 강인 게이트의 존재성은 Kakutani 고정점 정리를 이용해 증명된다. 구체적으로, 각 λ 에 대해 최적 게이트 g_λ 를 정의하고, 이 매핑이 상한 연속성을 갖는 상한 집합을 형성함을 보인다. 그 결과, 최소‑최대 균형점 (g*,λ*) 가 존재하며, g* 는 모든 λ 에 대해 D_{KL}(p_λ‖π_{g*})≤V* (최악의 위험 상한) 를 만족한다. 일반화 분석에서는 게이트의 복잡도 C(g) (예: VC 차원 또는 Rademacher 복잡도)와 전문가들의 ‘동시 일치 규범’ C_Π 에 기반한 샘플 복잡도 경계를 도출한다. 결과적으로, 전체 모델 파라미터 수가 아니라 가벼운 게이트의 복잡도에 비례해 학습 샘플이 필요하므로, 대규모 전문가를 재학습하는 것보다 훨씬 효율적이다. 또한, 모놀리식 모델 π_λ (전체 데이터를 합쳐 새로 학습한 경우)와 비교했을 때, Jensen‑Shannon 발산 JS(p_λ‖π_{g*}) 가 작을수록 모듈러 접근법이 이론적으로 더 좋은 성능을 보인다. 이는 전문가 간 분포 차이가 클수록(즉, JS 값이 클수록) 모듈러 방식이 더 큰 이점을 갖는다는 의미이다. 알고리즘적으로는 원래의 최소‑최대 문제를 선형화하여 확장 가능한 확률적 프라임‑듀얼(Primal‑Dual) 방법을 설계한다. 이 방법은 매 iteration마다 (i) 현재 게이트 g 에 대해 최악의 혼합 λ 을 구하고, (ii) 해당 λ 에 대해 게이트를 경사 하강한다는 두 단계로 구성된다. 수렴 분석을 통해 O(1/√T) 수준의 수렴률을 보이며, 메모리 사용량이 O(p) 에 머물러 실제 대규모 환경에서도 적용 가능함을 입증한다. 추론 단계에서는 게이트 g 가 입력 전체를 보고 비인과적으로 가중치를 결정하기 때문에 실시간 자동 회귀 생성에 부적합하다. 이를 해결하기 위해 ‘구조적 증류(Structural Distillation)’를 제안한다. 먼저, 비인과적 게이트와 전문가들의 출력으로부터 샘플을 생성하고, 이를 이용해 인과적 라우터 r(x) 를 학습한다. 라우터는 캐시된 로짓을 활용해 π_{g}(x)≈π_{r}(x) 를 만족하도록 훈련되며, 추론 시에는 라우터만 사용해 기존 자동 회귀 파이프라인에 그대로 삽입할 수 있다. 실험에서는 (1) 합성 데이터에서 기울기 충돌을 정량적으로 측정해 모듈러 구조가 충돌을 크게 감소시킴을 확인하고, (2) 위키피디아·코드·FineWeb 등 실제 대규모 텍스트 코퍼스에서 강인 게이트가 최악의 데이터 혼합에 대해 0.5~1.5 퍼플렉시티 향상을 달성함을 보였다. 또한, 구조적 증류 후에도 추론 속도가 5~10% 정도만 감소했으며, 메모리 사용량은 모놀리식 베이스라인 대비 30% 이상 절감되었다. 결론적으로, 이 연구는 (a) 사전 학습된 전문가들을 고정하고 라우팅만 학습함으로써 지속 가능한 대규모 생성 모델 구축이 가능함을 이론적으로 증명하고, (b) 실용적인 확률적 프라임‑듀얼 최적화와 구조적 증류 기법을 통해 학습·추론 효율성을 동시에 확보했으며, (c) 데이터 다양성이 증가할수록 모듈러 접근법이 더 큰 이점을 제공한다는 실증적 증거를 제시한다. 이러한 결과는 앞으로 AI 생태계에서 모듈형 시장·거래 모델이 확산되는 기반을 제공하고, 환경·비용 측면에서 보다 지속 가능한 생성 AI 개발에 기여할 것으로 기대된다.

모듈형 학습으로 강인한 생성 모델 만들기

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기