동적게이트 MLP 조건부 연산으로 구현하는 기능적 가소성

DynamicGate‑MLP는 학습 가능한 연속 게이트와 입력‑의존 이산 마스크를 이용해 훈련 시 드롭아웃 효과를 제공하고, 추론 시에는 입력마다 필요한 유닛만 활성화함으로써 계산량을 제어한다. 기대 게이트 사용량에 대한 정규화와 STE 기반 이산 마스크 학습을 결합하고, 필요 시 RigL 방식의 동적 희소 연결 재배치를 추가한다. MNIST·CIFAR‑10·Tiny‑ImageNet·Speech Commands·PBMC3k 등에서 기존 MLP·…

저자: Yong Il Choi

본 논문은 “DynamicGate‑MLP”라는 새로운 MLP 구조를 제안한다. 기존 드롭아웃은 훈련 시에만 무작위로 유닛을 비활성화해 과적합을 방지하지만, 추론 단계에서는 전체 네트워크를 그대로 사용한다는 한계가 있다. 반면 조건부 연산은 입력에 따라 실행 경로를 달리해 평균 연산량을 줄이지만, 일반적인 MoE나 스위치 트랜스포머와 달리 복잡한 라우팅 메커니즘이나 다수의 전문가 모델을 필요로 한다. 저자들은 이 두 접근법을 하나의 프레임워크로 통합하고자 한다. 핵심 아이디어는 각 레이어에 “게이트”를 삽입해 유닛(또는 블록)의 사용 여부를 결정하는 것이다. 게이트는 두 단계로 이루어진다. (1) 연속적인 확률 p_ℓ,i(x)=σ(z_ℓ,i^g(x)/τ) 를 계산한다. 여기서 z_ℓ,i^g(x)는 이전 레이어 출력 h^{ℓ‑1}(x)를 입력으로 하는 작은 신경망(GateNet)이 출력하는 로짓이며, τ는 온도 파라미터다. (2) 이 확률을 전역 임계값 θ와 비교해 이산 마스크 g_ℓ,i(x)=𝟙

동적게이트 MLP 조건부 연산으로 구현하는 기능적 가소성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기