코드스위치 다중언어 음성인식 반자동 학습
남아프리카 5개 언어(영어, isiZulu, isiXhosa, Setswana, Sesotho)의 코드스위치 음성 데이터를 대상으로, 이중언어 모델과 통합 5언어 모델을 구축하고, 약 11시간의 비라벨 음성을 활용한 반자동(세미슈퍼바이즈드) 학습을 적용하였다. 이중언어 TDNN‑F 모델에 CNN 레이어를 추가하면 성능이 추가 향상되지만, 통합 5언어 모델에서는 큰 개선이 나타나지 않았다. 영어가 공통으로 포함돼 언어 모델에서 영어 비중이 커지면…
저자: Astik Biswas, Emre Y{i}lmaz, Febe de Wet
이 논문은 남아프리카공화국의 다중언어 코드스위치 음성 인식 문제를 해결하기 위해 두 가지 접근 방식을 제안하고, 반자동(세미슈퍼바이즈드) 학습을 적용한 실험을 수행한다. 연구 배경으로는 남아프리카가 11개의 공식 언어를 보유하고 있으며, 특히 영어와 네 개의 Bantu 언어(isiZulu, isiXhosa, Setswana, Sesotho) 사이의 코드스위치 현상이 빈번하게 발생한다는 점을 들었다. 기존에 14.3시간 규모의 수동 전사된 코드스위치 코퍼스와 9시간 규모의 단일 영어 코퍼스를 활용했지만, 데이터 양이 여전히 부족해 성능 한계에 봉착했다.
첫 번째 접근은 영어와 각각의 Bantu 언어를 짝지어 네 개의 이중언어 모델을 별도로 구축하는 방식이다. 두 번째 접근은 영어와 네 개의 Bantu 언어를 모두 포함하는 통합 5언어 모델을 하나만 만드는 방식이다. 두 모델 모두 Kaldi 기반의 TDNN‑F 구조를 기본으로 하며, CNN‑TDNN‑F 변형을 통해 컨볼루션 레이어를 추가해 지역적 특징을 포착하도록 설계했다.
데이터는 기존 전사된 23.3시간 외에 11시간에 달하는 비전사 음성을 추가 확보하였다. 이 비전사 음성은 언어 라벨이 없었으므로, 두 종류의 자동 전사 시스템을 이용해 라벨링한다. 이중언어 전사 시스템(AutoT B)은 네 개의 디코더를 병렬 실행해 가장 높은 신뢰도 점수를 얻은 언어쌍을 선택하고, 통합 전사 시스템(AutoT F)은 단일 디코더로 전사한다. 전사된 결과는 각각의 모델에 다시 학습 데이터로 사용한다.
언어 모델링에서는 각 이중언어 쌍에 대해 3‑gram 모델을 별도로 학습했으며, 통합 5언어 모델은 (1) 전체 코드스위치 텍스트 기반 3‑gram, (2) 네 개 Bantu 언어 단일 텍스트 기반 3‑gram, (3) 영어 단일 텍스트 기반 3‑gram을 가중 평균한 형태다. 영어 텍스트가 풍부해 영어에 대한 퍼플렉시티는 낮았지만, Bantu 언어는 어휘가 풍부하고 교착어적 특성 때문에 퍼플렉시티가 크게 상승했다. 특히 영어→Bantu 전환 시 퍼플렉시티가 높아 언어 모델 불균형이 드러났다.
음향 모델 학습은 GMM‑HMM을 초기 정렬에 사용하고, 이후 TDNN‑F와 CNN‑TDNN‑F를 훈련한다. 데이터 증강, MFCC, 피치, i‑vector 등 다양한 특징을 활용했으며, 다국어 학습 시 언어 간 음소 병합은 하지 않았다.
실험 결과, 이중언어 TDNN‑F 모델은 반자동 학습 후 평균 WER가 49.93%에서 47.47%로 2.46%p 감소했으며, CNN‑TDNN‑F를 적용하면 45.11%까지 추가 개선되었다. 반면 통합 5언어 모델은 반자동 학습 후에도 큰 변화를 보이지 않았으며, 영어 성능은 향상됐지만 Bantu 언어들의 WER는 약간 악화되었다. 이는 언어 모델에서 영어가 과도하게 지배하면서 다른 언어들의 언어 모델 확률이 낮아진 결과로 해석된다.
결론적으로, 이중언어 모델은 반자동 학습과 CNN 레이어 결합을 통해 실질적인 성능 향상을 기대할 수 있다. 통합 5언어 모델은 다중 언어를 동시에 처리할 수 있는 유연성을 제공하지만, 언어 간 데이터 불균형과 모델 복잡성으로 인해 성능 최적화가 어려운 점을 보여준다. 향후 연구에서는 언어별 발음 사전 공유, 어휘 정규화, 신뢰도 기반 데이터 선택, 그리고 더 큰 규모의 인-도메인 코드스위치 데이터 확보 등을 통해 통합 모델의 성능을 향상시킬 필요가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기