마이크로소프트 2016 대화형 음성 인식 시스템 최신 딥러닝 융합

마이크로소프트 연구팀은 대화형 전화 음성 인식 분야의 대표 벤치마크인 스위치보드 코퍼스를 대상으로, 최신 딥러닝 기술을 종합적으로 적용한 시스템을 설계·구현하였다. 시스템은 크게 음향 모델, 화자 적응, 라티스‑프리 MMI 학습, 언어 모델 재점수, 시스템 결합, 그리고 효율적인 대규모 학습 기법이라는 여섯 가지 핵심 요소로 구성된다. 음향 모델링에서는 세 가지 컨볼루션 신경망(CNN) 아키텍처와 양방향 LSTM을 사용한다. VGG는 3×3 작은 필터와 5개의 컨볼루션 레이어를 포함한 깊은 구조로, 지역적인 음성 특징을 정밀하게 추출한다. ResNet은 잔차 연결을 도입해 매우 깊은 네트워크에서도 그래디언트 소실 없이 학습이 가능하도록 설계했으며, 배치 정규화를 ReLU 직전으로 이동시켜 학습 안정성을 높였다. LA‑CE는 TDNN 기반에 레이어‑와이즈 컨텍스트 확장과 주의 메커니즘을 결합해, 각 레이어가 다루는 시간‑주파수 윈도우 내에서 프레임별 중요도를 동적으로 가중화한다. 이 세 가지 CNN은 모두 30 ms 분석 윈도우와 10 ms 프레임 간격으로 추출된 40 dim 로그‑필터뱅크 특징을 입력으로 사용한다. LSTM은 6층, 양방향 각각 512개의 은닉 유닛을 갖는 구조이며, 층을 늘리면 성능이 정체되는 것을 확인하고 최적의 깊이를 선정하였다. 화자 적응은 100 차원 i‑vector를 이용한다. LSTM에서는 i‑vector를 매 프레임 입력에 직접 결합하고, CNN에서는 각 레이어에 학습 가능한 가중치 행렬을 곱해 편향 형태로 추가한다. 이 방식은 MFCC 기반 i‑vector와 로그‑필터뱅크 기반 음향 모델 간의 특징 결합 효과를 제공한다. 실험 결과, i‑vector 적용만으로도 모든 모델에서 5~8%의 상대적 WER 감소를 얻었다. 학습 단계는 먼저 교차 엔트로피 손실로 사전 학습한 뒤, 라티스‑프리 최대 상호 정보(MMI) 최적화를 수행한다. 기존 라티스 기반 MMI와 달리, 이 방법은 단어 수준이 아닌 혼합 히스토리(음소와 senone) 기반의 N‑gram 언어 모델을 사용해 디노미네이터 그래프를 구성한다. GPU 상에서 희소‑밀집 행렬 연산을 이용해 알파·베타 재귀를 수행함으로써 실시간보다 100배 빠른 속도로 학습이 가능했다. LF‑MMI 적용은 모든 음향 모델에서 7~10%의 추가적인 오류 감소를 가져왔으며, 라티스 생성 및 후처리 과정을 생략해 파이프라인을 크게 단순화하였다. 언어 모델 재점수는 대규모 4‑gram N‑gram과 다중 RNNLM을 결합한다. 기본 4‑gram은 약 15.9 M개의 n‑gram을 포함하고, 재점수 단계에서는 145 M개의 n‑gram을 포함한 비프루닝된 모델을 사용한다. RNNLM은 전방향과 역방향 모델을 각각 두 개씩 학습해(초기 가중치 차이) 앙상블하고, 이들와 N‑gram을 0.375/0.375/0.25 비율로 선형 보간한다. 또한, 인‑도메인(CTS)과 아웃‑오브‑도메인(웹) 데이터를 순차적으로 학습하는 두 단계 전략을 도입해 도메인 적합성을 유지하면서 데이터 규모의 이점을 활용한다. RNNLM 구조는 두 개의 1000‑유닛 ReLU 은닉층을 추가해 퍼플렉시티와 WER를 추가로 감소시켰다. 최종 재점수 단계에서 역방향 RNNLM을 포함함으로써 전체 시스템 WER를 6.9%까지 끌어냈다. 시스템 결합은 각 음향·언어 모델 조합에서 생성된 500‑best 리스트를 혼동 네트워크로 정렬한 뒤, greedy search와 EM 기반 가중치 최적화를 통해 과적합을 방지하면서 최적의 서브셋을 선택한다. 후보 시스템이 15개에 달했지만, 최종 결합에 기여한 모델은 5~6개에 불과했으며, 이 과정에서 약 20%의 상대적 오류 감소를 달성했다. 학습 효율성 측면에서는 1‑bit SGD를 활용해 그래디언트를 1비트 양자화하고 자동 미니배치 크기 조절을 적용함으로써 통신 병목을 32배 감소시키고, 대규모 데이터(≈2000 시간) 학습을 실현했다. 전체 실험 결과는 N‑gram 기반 베이스라인 8.6% WER에서 시작해, i‑vector와 LF‑MMI 적용 후 5.2%까지 감소하고, 최종 RNNLM 재점수와 시스템 결합을 거쳐 스위치보드 파트에서 6.2% (전체 6.9%)의 최첨단 성능을 기록했다. 이는 기존 문헌의 최고 성능(≈7.6% WER)을 크게 앞선 결과이며, 다양한 신경망 구조와 학습 기법의 시너지 효과를 입증한다.

마이크로소프트 2016 대화형 음성 인식 시스템 최신 딥러닝 융합

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기