DNN 기반 음성 모델의 스피커 적응 실험 비교

본 논문은 최신 딥러닝 기반 음성 인식 시스템에서 스피커 적응 기술을 체계적으로 평가한다. 연구 배경으로는 DNN, CNN, TDNN, LSTM 등 다양한 신경망 구조가 음성 인식 정확도를 크게 향상시켰음에도 불구하고, 훈련 데이터와 실제 사용 환경 사이의 화자 차이로 인한 성능 저하 문제가 여전히 존재한다는 점을 들었다. 이를 해결하기 위해 기존 GMM‑HMM 시대부터 제안된 스피커 적응 방법들을 신경망에 적용하는 세 가지 대표 기법, 즉 Linear Input Network(LIN), Learning Hidden Unit Contribution(LHUC), Kullback‑Leibler Divergence(KLD) 정규화 기반 적응을 선택하였다. LIN은 입력층에 화자별 선형 변환 행렬을 삽입해 입력 특징을 SI 모델에 맞추는 방식이며, 파라미터 수는 입력 차원과 동일하지만 학습 시 전체 네트워크는 고정된다. LHUC는 각 은닉층에 스케일 파라미터를 도입해 은닉 유닛의 기여도를 조절한다. 파라미터 양이 매우 적고, 네트워크 구조를 크게 바꾸지 않으면서도 화자 특성을 반영한다. KLD 정규화는 기존 교차 엔트로피 손실에 SI 모델의 출력 분포와의 Kullback‑Leibler divergence 항을 가중치 ρ로 결합한다. 이 방식은 전체 네트워크 파라미터를 재학습하지만, 과적합을 방지하기 위해 원래 모델과의 출력 분포 차이를 최소화한다. 실험은 3,000명의 표준 만다린 화자(약 1,000시간)로 훈련된 TDNN‑LSTM 기반 AM을 베이스라인으로 사용하였다. 적응 대상은 중국 후베이성 출신 10명의 화자이며, 각 화자는 450 utterance(약 0.5시간)씩 제공한다. 화자별 억양 정도를 ‘경’, ‘중’, ‘강’으로 구분하고, 5~300 utterance를 적응 데이터로 사용해 각 방법의 성능 변화를 관찰하였다. 입력 특징은 40차원 MFCC에 2프레임 좌우 컨텍스트와 100차원 i‑vector를 결합하고 LDA로 300차원으로 축소하였다. 모델은 6개의 TDNN 레이어와 3개의 LSTMP 레이어로 구성되었으며, 출력은 5,795개의 senone을 포함한다. 실험 결과는 다음과 같다. 첫째, KLD 정규화가 가장 일관된 성능 향상을 보였으며, 특히 억양이 강한 화자(S05)에서 가장 큰 CER 감소를 기록했다. ρ 값은 0.0625~0.5 범위에서 테스트했으며, 중간값(0.25)이 대부분의 데이터 양에서 최적이었다. 둘째, LHUC는 억양이 약한 화자(‘경’ 그룹)에서 가장 좋은 결과를 보였으며, 과적합 위험이 낮았다. 셋째, LIN은 전반적으로 modest한 개선만을 제공했으며, 다른 방법과 결합할 경우 오히려 성능이 저하되는 경향을 보였다. 넷째, 전통적인 재학습(RSI)은 데이터가 200 utterance 이상일 때 과적합 현상이 뚜렷했으며, KLD와 비슷한 수준으로 수렴했다. 마지막으로, LIN‑LHUC, LIN‑KLD, LHUC‑KLD, LIN‑LHUC‑KLD 등 네 가지 조합을 실험했지만, 단일 KLD 적용이 가장 좋은 결과를 냈으며, 조합이 큰 시너지 효과를 내지는 못했다. 이러한 결과는 스피커 적응 기법을 선택할 때 고려해야 할 요소들을 명확히 제시한다. 적응 데이터가 충분히 적고 화자 억양이 강할 경우 KLD 정규화가 가장 효과적이며, 억양이 약하고 데이터가 매우 제한된 상황에서는 LHUC가 좋은 선택이 될 수 있다. 또한 파라미터 양과 시스템 복잡도를 최소화하고 싶다면 LIN보다는 LHUC를, 전체 네트워크를 재학습할 여유가 있다면 KLD를 적용하는 것이 바람직하다. 본 연구는 실제 서비스 환경에서 화자 적응 전략을 설계하는 데 실용적인 가이드라인을 제공한다.

DNN 기반 음성 모델의 스피커 적응 실험 비교

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기