스파이킹 언어 모델 뉴런스파크

뉴런스파크는 0.9 B 파라미터 규모의 순수 스파이킹 신경망(SNN) 언어 모델로, 무작위 초기화와 서프라이즈 그래디언트만으로 대규모 텍스트 예측을 학습한다. 선택적 상태공간 동역학, 누설 전류 기반 레이어 연결, PonderNet 기반 적응 타임스텝, Triton 융합 PLIF 커널, 잔차 중심화·측면 억제 정규화·자연기울기 보정 등 6가지 안정화 기법을 결합해 1.4 B 토큰(≈10 B 토큰 코퍼스 중 일부)과 6.5 K SFT 단계만으로 …

저자: Zhengzheng Tang

본 논문은 “NeuronSpark: A Spiking Neural Network Language Model with Selective State Space Dynamics”라는 제목 아래, 순수 스파이킹 신경망(SNN) 기반의 대규모 언어 모델을 최초로 구현하고 그 가능성을 실증한다. 연구 배경으로는 현재 트랜스포머 기반 대형 언어 모델(LLM)이 높은 연산 비용과 에너지 소모를 야기한다는 점을 들며, 생물학적 plausibility와 에너지 효율성을 갖춘 세 번째 세대 신경망인 SNN이 대안이 될 수 있음을 제시한다. 그러나 기존 SNN 기반 언어 모델은 (1) 사전 학습된 트랜스포머의 디스틸레이션에 의존하거나, (2) 비스파이킹 구성 요소를 남겨두거나, (3) 파라미터 규모가 200 M 이하에 머물러 충분히 검증되지 못했다는 한계가 있었다. NeuronSpark는 이러한 격차를 메우기 위해 0.9 B 파라미터 규모의 순수 SNN 언어 모델을 무작위 초기화 상태에서 직접 학습한다. 주요 설계 요소는 다음과 같다. 1. **선택적 상태공간 스파이킹 블록**: LIF 뉴런의 전위 업데이트 V

스파이킹 언어 모델 뉴런스파크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기