중간 레이어 활용 지식 증류로 비자동 회귀 CTC ASR 성능 극대화

본 논문은 비자동 회귀(Non‑autoregressive) CTC 기반 자동음성인식(ASR) 시스템이 내부 언어 모델(LM) 정보를 충분히 학습하지 못해 발생하는 오류를 해결하고자, 대규모 텍스트 코퍼스로 사전 학습된 BERT를 교사 모델로 활용한 새로운 지식 증류(Knowledge Distillation, KD) 방식을 제안한다. 기존에는 외부 LM을 Shallow Fusion 형태로 결합해 인식 정확도를 높였지만, 이는 비자동 회귀 모델이 갖는 높은 처리량과 병렬 디코딩 속도를 크게 저해한다. 따라서 저자들은 외부 LM 없이도 내부 LM을 강화하는 방법을 모색하였다. ### 1. 배경 및 문제 정의 E2E‑ASR 모델은 학습 데이터가 충분하지 않을 경우, 언어적 의미가 결여된 토큰 시퀀스를 출력할 위험이 있다. 특히 비자동 회귀 모델은 Autoregressive 모델에 비해 디코딩 속도가 빠르지만, 내부 LM이 약해 외부 LM과의 결합이 필수적이었다. 기존 KD 연구에서는 BERT의 최종 출력(soft label)만을 사용하거나, 교사의 은닉 상태를 회귀 목표로 삼는 방식이 주를 이뤘다. 그러나 이러한 접근은 언어 정보가 인코더의 낮은 층까지 전달되지 않아, 최종 레이어에만 국한된 효과를 보인다. ### 2. 제안 방법 저자들은 두 가지 핵심 아이디어를 결합한다. 1) **최종 레이어 KD (AED‑KD)**: 기존 연구와 동일하게 인코더 최종 레이어의 출력에 연결된 보조 어텐션 디코더(AED)를 통해 BERT의 토큰 확률과 KL 발산 손실을 최소화한다. 2) **중간 레이어 KD (interAED‑KD)**: 인코더의 중간 레이어(논문에서는 9번째 레이어)에도 동일한 구조의 보조 AED를 삽입한다. 이 보조 디코더는 중간 레이어의 출력에 대해 BERT의 토큰 확률과 KL 손실을 계산한다. 이를 통해 언어 정보가 인코더의 낮은 층까지 직접 전파된다. 두 KD 손실은 가중합으로 결합한다. 전체 손실 함수는 L = (1‑α)·L_CTC + α·

중간 레이어 활용 지식 증류로 비자동 회귀 CTC ASR 성능 극대화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기