GLU 변형으로 트랜스포머 성능 향상

본 논문은 트랜스포머 모델의 피드포워드 서브레이어(FFN)에 기존에 널리 사용되는 ReLU·GELU 대신 Gated Linear Unit(GLU) 및 그 변형들을 적용해 성능 향상을 검증한다. GLU는 입력을 두 개의 선형 변환으로 나눈 뒤, 하나에 시그모이드 함수를 적용하고 두 결과를 요소별 곱(⊗)으로 결합하는 구조이며, 원 논문(Dauphin et al., 2016)에서는 이를 “게이팅” 메커니즘이라 부른다. 저자들은 시그모이드 대신 ReLU, GELU, Swish와 같은 다양한 비선형 함수를 적용한 ReGLU, GEGLU, SwiGLU를 정의하고, 비활성화 버전인 Bilinear도 포함한다. FFN 구조는 기존과 달리 세 개의 가중치 행렬(W, V, W₂)을 사용한다. 이를 통해 첫 번째 선형 변환과 비선형(또는 게이팅) 연산을 결합하고, 두 번째 선형 변환으로 최종 출력 차원을 복원한다. 파라미터 수와 연산량을 기존 모델과 동일하게 유지하기 위해, 은닉 차원 d_ff를 2/3로 축소한다. 즉, 원래 3072였던 차원을 2048로 줄여 세 개의 행렬이 차지하는 파라미터 양을 원래 두 개의 행렬과 맞춘다. 실험은 T5‑base와 동일한 설정을 사용한다. Encoder와 Decoder 각각 12 레이어, d_model=768, d_k=d_v=64, h=12, 그리고 FFN 은닉 차원 d_ff=3072(기본) 혹은 2048(GLU 변형)이다. 사전학습은 C4 데이터셋을 이용해 524 288 스텝을 수행하고, 배치당 128개의 시퀀스를 사용한다. 중요한 차이점은 사전학습 단계에서 드롭아웃을 전혀 적용하지 않았다는 점이다. 이 설정은 기존 T5보다 낮은 로그 퍼플렉시티를 얻는 데 기여했으며, 특히 GLU 변형이 더 큰 효과를 보였다. 표 1에 따르면, 로그 퍼플렉시티 기준으로 GEGLU(1.942 ± 0.004)와 SwiGLU(1.944 ± 0.010)가 가장 우수했으며, 기존 ReLU(1.997)와 GELU(1.983)를 능가한다. Bilinear도 1.960으로 좋은 결과를 보였지만, 비선형 게이팅이 없는 점은 약간의 성능 저하를 초래한다. 사전학습 후에는 GLUE, SuperGLUE, SQuAD 등 다양한 다운스트림 태스크에 파인튜닝한다. 파인튜닝은 13 107 2 스텝, 학습률 1e‑3, 드롭아웃 0.1을 적용한다. 결과는 표 2~4에 정리되어 있다. GLUE 평균 점수는 ReLU 83.80에서 GEGLU 84.12, SwiGLU 84.36으로 상승했으며, 특히 CoLA, MRPC, STSB 등에서 눈에 띄는 개선을 보였다. SuperGLUE에서도 GEGLU와 SwiGLU가 최고 점수를 기록했고, SQuAD에서는 GEGLU가 EM 83.55, F1 91.12로 가장 높은 성능을 달성했다. 전체적으로 GLU 변형은 대부분의 태스크에서 기존 활성화 함수보다 우수하거나 동등한 성능을 보여준다. 논문의 결론에서는 GLU 계열이 트랜스포머 FFN에 간단히 적용 가능하며, 파라미터와 연산량을 늘리지 않고도 성능을 향상시킬 수 있음을 강조한다. 저자들은 이러한 성공을 “신성한 우연”이라고 표현했지만, 실제로는 게이팅 메커니즘이 입력 특성의 복합적인 비선형 관계를 더 효과적으로 모델링하기 때문이라고 해석할 수 있다. 한편, 연구의 제한점으로는 영어 기반 대규모 텍스트 데이터에만 실험을 진행했으며, 다른 언어, 멀티모달 입력, 혹은 더 큰 모델 규모에 대한 검증이 부족하다는 점을 언급한다. 또한, 실제 서비스 환경에서의 추론 속도와 메모리 사용량에 대한 상세 분석이 없으며, 하드웨어 최적화 관점에서의 평가도 필요하다. 향후 연구에서는 다양한 도메인과 모델 스케일에 대한 확장 실험, 그리고 GLU 변형을 활용한 효율적인 하드웨어 구현 방안을 탐구할 여지가 있다.

GLU 변형으로 트랜스포머 성능 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기