낮은 자원 언어를 위한 교차 언어 전이 학습 기반 텍스트투스피치

본 논문은 고자원 언어(영어)에서 사전 학습한 엔드‑투‑엔드 TTS 모델을 저자원 언어(중국어, 독일어, 프랑스어)로 전이시키는 방법을 제안한다. 입력 기호 공간의 불일치를 해결하기 위해 ‘음성 변환 네트워크(PTN)’를 학습해 소스 언어의 음소와 타깃 언어의 문자·음소 사이의 매핑을 자동으로 발견한다. 15~30분 수준의 제한된 병렬 데이터만으로도 intelligible한 합성 음성을 얻을 수 있음을 객관·주관 평가를 통해 입증한다.

저자: Tao Tu, Yuan-Jui Chen, Cheng-chieh Yeh

낮은 자원 언어를 위한 교차 언어 전이 학습 기반 텍스트투스피치
본 연구는 전 세계 언어의 95% 이상이 충분한 텍스트‑음성 쌍 데이터를 확보하기 어려운 현실을 배경으로, 저자원 언어에 대한 엔드‑투‑엔드 텍스트‑투‑스피치(TTS) 시스템 구축 방법을 제안한다. 고자원 언어인 영어를 소스로 사용해 Tacotron 기반 TTS와 LibriSpeech를 이용한 CNN 기반 자동음성인식(ASR) 모델을 각각 사전 학습한다. 이후, 두 모델을 연결한 Phonetic Transformation Network(PTN)를 도입해 소스 언어의 음소 posteriorgram을 타깃 언어의 음소 혹은 문자 확률분포로 변환한다. PTN은 CTC 손실을 최적화하며, 매핑 임계값 ξ(0.4)를 통해 확률이 충분히 높은 경우에만 매핑을 확정한다. 전이 방법은 세 가지로 구분된다. 첫 번째 ‘Separate’는 소스와 타깃의 임베딩을 완전히 독립적으로 초기화하고 학습한다. 이는 전이 효율이 낮아 데이터가 15분 수준으로 감소하면 성능이 급격히 떨어진다. 두 번째 ‘Unified’는 국제음성기호(IPA)를 중간 표준으로 삼아 수작업 매핑을 수행한다. 이 경우 전문가의 언어학적 지식이 필요하지만, 매핑이 정확하면 소스 임베딩을 그대로 재사용할 수 있다. 세 번째 ‘Learned’는 PTN이 자동으로 발견한 매핑을 활용한다. PTN은 소스 ASR이 출력한 posteriorgram을 입력으로 받아, 타깃 언어 기호에 대한 확률분포를 출력한다. 이 확률분포를 기반으로 가장 높은 확률을 보이는 타깃 기호와 소스 기호를 매핑하고, 해당 소스 임베딩을 타깃 임베딩에 전이한다. 매핑되지 않은 타깃 기호는 새롭게 학습된다. 실험은 Mandarin(중국어), German(독일어), French(프랑스어)를 타깃 언어로 설정하고, 각각 30분, 30분, 15분 정도의 병렬 데이터를 사용한다. 객관적 평가는 Google Speech‑to‑Text API를 이용한 문자 오류율(CER)과 멜‑cepstral distortion(MCD)으로 수행한다. ‘Unified’와 ‘Learned’는 모든 언어와 데이터 양에서 ‘Separate’를 크게 앞서며, 특히 데이터가 15분 이하일 때 ‘Learned’가 ‘Unified’와 거의 동등한 성능을 보인다. 주관적 평가는 5점 척도 MOS 테스트로 진행했으며, 25분 데이터에서는 세 전이 방법 모두 ‘Scratch’(처음부터 학습)보다 높은 점수를 기록했다. 15분으로 감소했을 때는 ‘Separate’가 급격히 성능이 떨어지는 반면, ‘Learned’와 ‘Unified’는 여전히 3점대 이상의 점수를 유지했다. 매핑 품질에 대한 추가 분석에서는 PTN이 자동으로 찾은 매핑을 IPA 기반 매핑과 비교하였다. 영어‑독일어, 영어‑프랑스어, 영어‑중국어 간 매핑에서 정밀도는 64~83%, 재현율은 48~63% 수준으로, 특히 발음이 공유되는 기호에 대해 높은 일치도를 보였다. 이는 PTN이 발음 기반의 의미 있는 변환을 학습했음을 의미한다. 결론적으로, 이 논문은 (1) 소스 언어와 타깃 언어 간 입력 기호 공간 불일치를 PTN을 통해 자동 매핑함으로써 전이 학습을 가능하게 한다, (2) 전문가의 수작업 매핑 없이도 15분 수준의 제한된 데이터만으로 intelligible하고 자연스러운 합성 음성을 생성한다, (3) 다양한 언어 쌍에 적용 가능하며, 특히 문자 기반 입력이 필요한 경우에도 효과적으로 작동한다는 점을 입증한다. 향후 연구에서는 더 복잡한 음성 스타일·감정 전이, 멀티스피커 상황, 그리고 WaveNet·HiFi‑GAN과 같은 고품질 보코더와의 결합을 통해 품질을 한층 향상시키는 방향을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기