자기주의 기반 CTC 네트워크로 구현한 고성능 음성 인식
본 논문은 완전 자기주의(Self‑Attention) 구조를 CTC 손실에 적용한 SAN‑CTC 모델을 제안한다. 다운샘플링, 위치 인코딩, 라벨 알파벳(문자·음소·서브워드) 변형을 실험적으로 검증하고, WSJ와 LibriSpeech 데이터셋에서 기존 CTC 및 인코더‑디코더 모델을 능가하는 CER·WER 성능을 달성하였다. 특히 1일 내에 WSJ eval92에서 4.7% CER, 1주일 내에 LibriSpeech test‑clean에서 2.8…
저자: Julian Salazar, Katrin Kirchhoff, Zhiheng Huang
본 논문은 최근 자연어 처리 분야에서 성공을 거둔 자기주의 메커니즘을 음성 인식의 CTC 프레임워크에 적용한 SAN‑CTC 모델을 제안한다. 기존 CTC 기반 음성 인식 시스템은 주로 양방향 LSTM(BLSTM)이나 깊은 합성곱 신경망을 사용했으며, 이들은 시간 순차적 연산으로 인해 병렬화가 어려워 학습 속도가 느리고, 긴 컨텍스트를 포착하려면 많은 레이어가 필요했다. 반면, 자기주의는 입력 전체를 한 번에 바라보며 모든 위치 간의 관계를 O(T²) 연산으로 계산하므로, 몇 개의 레이어만으로도 넓은 시간 의존성을 모델링할 수 있다.
모델 구조는 크게 네 단계로 구성된다. 첫째, 입력 음성 프레임(25 ms 윈도우, 10 ms 홉)에서 40 dim mel‑filterbank와 1차·2차 차분을 결합한 120 dim 특성을 추출한다. 둘째, 다운샘플링 단계에서 입력 길이 T를 3배 축소한다. 논문에서는 서브샘플링, 최대/평균 풀링, 그리고 연속 프레임을 하나로 결합하는 리쉐이핑 방식을 비교했으며, 리쉐이핑이 가장 성능 저하가 적었다. 셋째, 임베딩 단계에서 각 프레임을 d_h = 512 차원으로 변환하고, 위치 정보를 트리곤메트릭 방식으로 인코딩한다. 위치 인코딩은 additive, concatenative, 혹은 content‑only 세 가지 옵션을 실험했으며, CTC의 단조성 덕분에 content‑only 옵션도 충분히 경쟁력을 보였다. 넷째, 10개의 자기주의 레이어를 쌓아 각 레이어마다 다중 헤드(8 heads)와 포지션‑와이즈 피드포워드 네트워크(FFN, d_ff = 2048)를 적용한다. 레이어 정규화와 잔차 연결을 통해 학습 안정성을 높였다. 마지막으로, 각 레이어의 출력에 대해 프레임별로 L + {blank} 알파벳에 대한 로짓을 계산하고, CTC 손실을 최소화한다.
학습은 Nesterov 가속 경사(Nesterov‑accelerated gradient)와 배치 크기 20, 전역 그래디언트 클리핑(‖g‖ ≤ 1)으로 진행했으며, 초기 불안정성을 완화하기 위해 8000 스텝 워밍업 후 역제곱 감소 스케줄을 적용했다. 라벨 스무딩(λ = 0.1)도 도입해 일반화를 촉진했다.
실험은 두 주요 데이터셋에서 수행되었다. WSJ(80 h)에서는 문자와 음소 두 종류의 라벨을 사용했으며, 1일(24 h) 내에 최적 모델을 학습했다. 평가 결과, 문자 모델은 eval92에서 4.7% CER, 음소 모델은 5.1% CER를 기록했으며, 이는 기존 BLSTM‑CTC(≈9% CER)와 Gated‑CNN‑CTC(≈6.9% CER)를 크게 앞선 수치이다. 또한, 제공된 3‑gram 언어 모델을 이용한 WFST 디코딩 후 WER는 5.9%에 머물렀다.
LibriSpeech(960 h)에서는 동일한 하이퍼파라미터를 유지하면서 1주일(≈7 days) 동안 학습했으며, test‑clean에서 2.8% CER, test‑other에서 6.5% CER를 달성했다. 이는 최신 Speech‑Transformer(≈3.0% CER)보다 약간 낮지만, 추론 시 토큰을 병렬로 예측할 수 있어 실시간 응용에 유리하다.
추가적인 분석으로, 각 자기주의 헤드의 어텐션 가중치를 시각화했다. 초기 레이어에서는 일부 헤드가 전체 시퀀스에 고르게 주의를 분산시켜 넓은 컨텍스트를 포착하고, 다른 헤드들은 국소적인 패턴에 집중하는 경향을 보였다. 깊은 레이어에서는 이러한 차이가 다소 완화되었지만, 여전히 다양한 시간 스케일을 담당하는 헤드가 존재했다. 이는 음성 신호가 갖는 다중 시간‑주파수 구조를 자기주의가 자동으로 학습한다는 증거이다.
결론적으로, SAN‑CTC는 CTC의 비자율성(비‑autoregressive) 특성을 유지하면서도, 자기주의가 제공하는 전역 컨텍스트와 높은 병렬 처리 효율성을 결합해 학습·추론 속도와 정확도 모두에서 기존 방법을 능가한다. 또한, 다운샘플링과 위치 인코딩 선택에 따라 성능 변동이 크지 않아, 실제 시스템에 손쉽게 적용할 수 있는 실용성을 보여준다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기