소프트맥스 트랜스포머에서 어텐션 싱크는 필수적이다 트리거 조건 작업을 통한 증명
본 논문은 트리거 토큰이 등장했을 때만 이전 토큰들의 평균을 출력하고, 그 외에는 제로를 출력하는 단순 작업을 통해 소프트맥스 기반 어텐션에서는 어텐션 싱크(고정 위치에 집중)가 불가피함을 수학적으로 증명한다. 반면 비정규화된 ReLU 어텐션은 동일 작업을 싱크 없이 해결할 수 있음을 보이며, 싱크 현상의 근본 원인이 소프트맥스 정규화임을 확인한다. 실험에서도 이론을 뒷받침하는 결과가 관찰된다.
저자: Yuval Ran-Milo
본 논문은 최근 대형 언어 모델(Large Language Model) 및 멀티모달 모델에서 빈번히 관찰되는 ‘어텐션 싱크’ 현상을 이론적으로 규명하고, 이를 실험적으로 검증한다. 어텐션 싱크란, 소프트맥스 기반 어텐션 헤드가 입력 내용과 무관하게 특정 고정 위치(주로 시퀀스 시작점인 BOS 토큰)에 거의 전부의 확률 질량을 집중시키는 현상을 말한다. 이러한 현상은 모델의 표현 용량을 낭비하고, 해석 가능성을 저해하며, 장기 컨텍스트 처리와 양자화 등 실용적인 측면에서도 문제를 일으킨다. 기존 연구는 주로 경험적 관찰에 머물렀으며, 싱크가 최적화 과정의 부수 효과인지, 혹은 구조적 필연성인지는 명확히 밝혀지지 않았다.
저자들은 이 질문에 답하기 위해 ‘트리거‑조건부 작업(trigger‑conditional task)’이라는 간단하면서도 실제 모델에서 발견되는 동작을 추상화한 과제를 정의한다. 입력 시퀀스는 다음과 같은 네 가지 좌표를 포함한다: (1) BOS 표시(첫 토큰에만 1), (2) 트리거 표시(특정 위치에만 1), (3) 일반 토큰 표시(나머지 토큰에 1), (4) 연속적인 내용 좌표(연속 분포에서 샘플). 트리거가 등장하면 모델은 그 위치에서 이전 토큰들의 평균을 출력하고, 트리거가 없을 때는 전혀 출력을 하지 않아야 한다. 이는 실제 LLM에서 ‘활성‑비활성’ 어텐션 헤드가 트리거(예: 아포스트로피) 감지 시 컨텍스트를 집계하고, 그렇지 않을 때는 BOS에 고정된 무작위 값을 쓰는 동작과 일치한다.
논문은 세 가지 주요 정리를 제시한다.
**Theorem 1**은 단일층 소프트맥스 어텐션 모델이 위 작업을 거의 완벽하게 수행하려면, 모든 비트리거 위치 i에서 어텐션 가중치 α_{i,1} (BOS에 대한 가중치)이 1−ε 이상이어야 함을 증명한다. 증명은 어텐션 가중치가 충분히 분산될 경우, 값 매핑 V가 비정상적으로 압축되어야 하며, 이는 연속적인 내용 좌표의 독립성 및 확률 밀도 가정에 모순된다는 논리를 전개한다. 따라서 디폴트(제로) 출력을 구현하기 위해서는 ‘디폴트 앵커’인 BOS에 거의 전부의 확률 질량을 할당하는 싱크가 필수적이다.
**Theorem 2**는 다층(다중 레이어) 소프트맥스 어텐션에서도 최소 한 레이어는 비트리거 위치에서 BOS 혹은 다른 고정 토큰에 대한 강한 집중을 보여야 함을 보인다. 이는 여러 레이어가 서로 보완하더라도, 기본적인 ‘디폴트 상태’를 구현하기 위해서는 적어도 하나의 싱크가 필요하다는 의미다.
**Theorem 3**은 정규화가 없는 ReLU 어텐션이 동일 작업을 정확히 해결하면서 BOS에 대한 어텐션을 0으로 유지할 수 있음을 구성적으로 증명한다. 이는 소프트맥스 정규화가 싱크 형성의 근본 원인임을 명확히 한다.
실험에서는 단일층·다층, 싱글‑헤드·멀티‑헤드 설정 모두에서 소프트맥스 모델이 학습 과정 중 BOS에 거의 전부의 어텐션을 할당하는 ‘싱크’ 현상을 보였다. 어텐션 가중치의 평균과 표준편차를 시각화한 결과, 비트리거 위치에서 α_{i,1}이 0.99 이상으로 안정적으로 수렴함을 확인했다. 반면, 동일 구조에 ReLU 어텐션을 적용하면 BOS에 대한 가중치가 거의 0에 머물며, 전체 어텐션이 입력 토큰들에 고르게 분산되는 모습을 보였다. 또한, 두 모델 모두 트리거 위치에서 정확히 평균을 계산해 높은 정확도를 달성했으며, 이는 싱크 유무가 작업 성능에 직접적인 영향을 주지 않음을 의미한다. 실험 결과는 최적화 알고리즘이나 데이터 분포와 무관하게, 소프트맥스 자체의 정규화 메커니즘이 싱크를 강제한다는 이론적 주장과 일치한다.
논문의 기여는 크게 네 가지로 정리된다. 1) 트리거‑조건부 작업을 통해 어텐션 싱크가 구조적 필수조건임을 수학적으로 증명하였다. 2) 다층 모델에서도 최소 하나의 레이어가 싱크를 가져야 함을 확장하였다. 3) 비정규화된 ReLU 어텐션이 동일 작업을 싱크 없이 해결할 수 있음을 구성적으로 보여, 정규화가 싱크 형성의 원인임을 명확히 했다. 4) 실험을 통해 이론을 검증하고, 실제 모델 설계 시 싱크를 억제하거나 활용할 수 있는 새로운 설계 방향을 제시하였다. 향후 연구에서는 Sparsemax, Entmax와 같은 대안 정규화, 더 복잡한 트리거‑조건부 작업, 그리고 대규모 실제 LLM에 대한 적용을 통해 싱크 현상의 범위와 영향을 보다 정밀하게 탐구할 필요가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기