변분 뉴런을 활용한 트랜스포머 언어 모델링

본 논문은 트랜스포머 기반 언어 모델에서 내부 연산에 불확실성을 직접 통합하는 방법을 제안한다. 기존 트랜스포머는 어텐션 메커니즘과 피드‑포워드 네트워크로 구성되며, 피드‑포워드 단계는 완전 연결 층을 통해 결정론적으로 처리된다. 이러한 구조에서는 불확실성이 주로 최종 출력 확률분포에만 반영되며, 모델 내부에서 어떻게 불확실성이 형성·전파되는지는 알기 어렵다. 저자들은 이 문제를 해결하기 위해 피드‑포워드 레이어를 ‘변분 뉴런(local variational neuron)’으로 교체한다. 변분 뉴런은 EVE(Evidence‑Variational‑Encoder) 방식을 차용해 각 뉴런마다 독립적인 잠재 변수 z 를 갖고, 입력 x와 내부 상태 h에 조건화된 사후 qϕ(z|x,h)와 사전 pψ(z|h) 를 학습한다. 사후는 평균 μ_q 와 분산 σ_q² 를 파라미터화한 다변량 정규분포이며, 재파라미터화 기법을 통해 샘플 z 를 얻고, 비선형 변환 gθ(z) 를 통해 활성값 y 를 만든다. 이 과정은 전통적인 결정론적 뉴런이 단순히 W·x + b 를 계산하는 것과 근본적으로 다르다. 변분 뉴런을 트랜스포머에 삽입하는 전체 파이프라인은 다음과 같다. 입력 토큰은 임베딩 레이어를 거쳐 여러 트랜스포머 블록에 전달된다. 각 블록에서는 먼저 멀티‑헤드 어텐션(MHA)과 레이어 정규화(LN)를 수행해 eHℓ 를 만든다. 이후 어텐션 출력 eHℓ 을 은닉 표현 uℓ 으로 변환하고, 이 은닉 표현을 다수의 변분 뉴런에 입력한다. 각 뉴런은 qϕ 와 pψ 를 통해 zℓ,i 를 샘플링하고, gθ(zℓ,i) 를 통해 활성값을 계산한다. 이 활성값들은 다시 모델 공간에 투사돼 피드‑포워드 잔차 연결에 더해진다. 최종적으로 변분 트랜스포머는 기존 트랜스포머와 동일한 어텐션 구조와 출력 헤드를 유지하면서, 중간 피드‑포워드 단계가 확률적 흐름을 포함한다. 학습 목표는 전통적인 언어 모델 손실 L_LM (다음 토큰 교차 엔트로피)와 변분 KL 항, 제어 손실, 필요 시 자동 회귀 사전 손실을 가중치 β, α 와 함께 합산한 전역 손실 L 이다. KL 항은 사후와 사전 사이의 다이버전스를 최소화해 잠재 분포가 과도하게 확장되거나 붕괴되는 것을 방지한다. 제어 손실은 ‘잠재 에너지’ μ² = (1/d)∑μ_q,j² 를 목표값 주변에 유지하도록 하는 밴드 기반 조절을 포함한다. 이 조절은 잠재 활성도가 너무 낮아 확률적 경로가 사라지는 현상과, 너무 높아 학습이 불안정해지는 현상을 동시에 억제한다. 결과적으로 각 뉴런은 일정한 활성 밴드 내에서 동작하며, 학습 과정에서 잠재 평균·분산을 직접 모니터링할 수 있다. 실험은 네 가지 데이터 스케일(19.9k, 10k, 2k 등)에서 동일한 컴팩트 트랜스포머 아키텍처를 사용해 변분 버전과 결정론적 베이스라인을 직접 비교한다. 평가 지표는 전통적인 퍼플렉시티·정확도·NLL 외에도 캘리브레이션 오류(ECE), 조건부 분산, 상호정보량(MI), 토큰‑레벨 플립 비율, CVaR‑NLL 등 확률적 메트릭과, 층별 KL 값, 잠재 에너지 μ² 통계, 활성 층 비율 등 내부 진단 메트릭을 포함한다. 주요 결과는 다음과 같다. (1) 변분 트랜스포머는 퍼플렉시티와 정확도 면에서 결정론적 모델과 동등하거나 약간 우수했다. 예를 들어 19.9k 설정에서 Run A는 CE = 4.7370, PPL = 114.10, 정확도 = 0.2293을 기록했으며, Run B는 약간 더 낮은 CE와 PPL을 보였지만 차이는 미미했다. (2) 확률적 지표에서 변분 모델이 현저히 개선되었다. Monte Carlo NLL, ECE, MI, 조건부 분산, 플립 비율 등에서 변분 버전이 더 낮은 오류와 높은 정보량을 보였다. (3) 내부 진단에서는 첫 번째 피드‑포워드 층이 대부분의 예측에 기여하지만, 두 번째·세 번째 층에서도 의미 있는 KL 값과 μ² 값이 관측돼, 실제로 깊은 층의 잠재가 활용되고 있음을 확인했다. Run A는 두 번째 층에서 KL ≈ 0.1920, μ² ≈ 0.0911을 기록했으며, 세 번째 층은 거의 비활성화되었다(μ² ≈ 1.5e‑5). 반면 Run B는 두 번째·세 번째 층 모두 거의 비활성화돼, ‘작업 품질’과 ‘깊은 잠재 활용’ 사이에 트레이드‑오프가 존재함을 보여준다. (4) 10k 설정에서는 초기 v23 모델이 약간 더 좋은 CE·PPL을 보였지만, 잠재 에너지 밴드 조절을 강화한 v22 모델이 내부 KL·μ² 분포를 크게 정돈했다. v22는 CE = 4.8208, PPL = 124.06을 기록했으며, μ² 표준편차가 2.94로 크게 감소해 내부 안정성이 향상된 것을 확인했다. (5) 2k 소규모 실험에서도 변분 모델(EVE)이 결정론적 모델보다 전반적인 퍼플렉시티·정확도·확률적 지표에서 우수했으며, 다만 깊은 층의 잠재 활용이 다소 불안정하게 나타났다. 이러한 결과는 변분 뉴런이 트랜스포머에 성공적으로 통합될 수 있음을 입증한다. 불확실성을 내부 연산에 내재화함으로써 모델은 예측 성능을 유지하면서도, 각 층·각 뉴런 수준에서 불확실성 흐름을 관찰·제어할 수 있다. 이는 모델 해석, 불확실성 기반 의사결정, 그리고 잠재 활용도 분석 등에 새로운 도구를 제공한다. 또한 ‘작업 품질’과 ‘유용한 깊이’, ‘내부 안정성’이 서로 독립적인 특성임을 실증함으로써, 향후 모델 설계 시 이러한 세 축을 균형 있게 고려해야 함을 시사한다. 결론적으로, 변분 뉴런을 활용한 트랜스포머는 기존 결정론적 구조와 비교해 예측 정확도는 유지하면서도, 내부 확률적 구조를 명시적으로 학습·제어한다는 점에서 중요한 진전을 이룬다. 이는 불확실성 인식이 요구되는 자연어 처리 응용(예: 의료 기록 생성, 대화 시스템의 위험도 평가 등)에서 특히 유용할 것으로 기대된다.

변분 뉴런을 활용한 트랜스포머 언어 모델링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기