뇌신경조절 기반 파라미터 효율적 다중 과제 적응 NeuroLoRA

본 논문은 대규모 언어 모델(LLM)의 파라미터 효율적 파인튜닝을 위한 새로운 프레임워크인 NeuroLoRA를 제안한다. 기존 LoRA는 하나의 전역 저차원 업데이트를 모든 입력에 공유함으로써 내부·외부 과제 간 간섭을 야기한다. 이를 해결하기 위해 Mixture‑of‑Experts(MoE) 기반 LoRA가 등장했지만, 대부분은 학습 가능한 라우터를 사용해 파라미터 효율성을 저해하고, 훈련 후 모델 병합이 어려운 단점을 가지고 있다. 최근 FlyLoRA는 생물학적 파리 후각 회로를 모방해 고정된 희소 랜덤 프로젝션과 절대값 기반 Top‑K 라우팅을 도입, 구조적 안정성과 훈련‑무료 병합을 가능하게 했지만 라우팅이 입력 토큰 자체의 크기에만 의존해 컨텍스트를 반영하지 못한다는 한계가 있었다. NeuroLoRA는 이러한 한계를 극복하기 위해 ‘뉴로모듈레이션’이라는 생물학적 메커니즘을 차용한다. 고정된 희소 프로젝션 A 는 그대로 유지하면서, 경량 컨텍스트‑인식 게이트 E_ϕ 가 입력 x 에 대해 스칼라 벡터 mₓ ∈ ℝʳ 을 생성한다. 이 벡터는 두 개의 저차원 선형 변환 W₁, W₂ 와 GELU, 시그모이드 활성화를 거쳐 얻으며, 초기에는 1에 가깝게 초기화돼 학습 초기에 FlyLoRA와 동일하게 동작한다. 이후 프로젝션 결과 h = A x 에 원소별 곱셈을 적용해 h′ = h ⊙ mₓ 를 만든 뒤, 절대값 기준 Top‑K를 적용해 활성 전문가 집합 I_active 을 선택한다. 이렇게 선택된 전문가 열 B_:,i 와 h′_i 의 내적을 합산해 LoRA 업데이트 Δy 를 계산한다. 결과적으로 동일 토큰이라도 앞선 문맥에 따라 다른 차원이 강조·억제돼, 의미적 차이에 맞는 전문가가 동적으로 호출된다. 또한, NeuroLoRA는 대비 정규직교 손실 L_orth 을 도입해 활성·비활성 전문가 열 사이의 코사인 유사도를 최소화한다. 이는 전문가 서브스페이스가 겹치는 현상을 억제해, 다중 과제 병합 시 파라미터 간섭을 감소시키고, 연속 학습 시 새로운 과제가 기존 과제와 직교하는 서브스페이스를 차지하도록 강제한다. 손실은 L_total = L_task + λ L_orth 으로 결합되며, λ는 정규화 강도를 조절한다. 실험은 Llama‑3‑8B 모델을 기반으로 진행되었다. LoRA 모듈은 모든 어텐션 레이어의 Q/K/V/O에 삽입되었으며, MMLU(57개 분야), ScienceQA(텍스트 전용), GSM8K(수학 문제) 세 벤치마크에서 단일 과제 적응, 다중 과제 모델 병합, 순차적 연속 학습을 평가했다. 파라미터 효율성 측면에서 NeuroLoRA는 전체 파라미터의 0.14 %만 학습에 사용해 FlyLoRA(0.13 %)와 거의 동등하지만, 평균 정확도는 MMLU 66.3 % (FlyLoRA 65.1 %), ScienceQA 95.5 % (FlyLoRA 94.1 %), GSM8K 61.2 % (FlyLoRA 58.7 %)로 각각 1.2~3.5 포인트 상승했다. 특히 연속 학습 실험에서 기존 방법이 보이는 catastrophic forgetting을 크게 완화해, 이전 과제 성능 손실을 최소화했다. 결론적으로 NeuroLoRA는 (1) 고정된 희소 랜덤 프로젝션의 구조적 장점 보존, (2) 컨텍스트 의존적 라우팅을 위한 경량 뉴로모듈레이션 게이트 도입, (3) 전문가 서브스페이스의 명시적 직교화를 통한 정규화라는 세 가지 핵심 요소를 결합해, 파라미터 효율성과 성능을 동시에 향상시킨다. 이는 PEFT, MoE‑LoRA, 그리고 바이오‑인스파이어드 모델 병합 분야에 새로운 연구 방향을 제시한다.

뇌신경조절 기반 파라미터 효율적 다중 과제 적응 NeuroLoRA

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기