데이터 절감이 시퀀스‑투‑시퀀스 신경 TTS에 미치는 영향

본 논문은 최신 자동회귀식 시퀀스‑투‑시퀀스(Tacotron2) 기반 텍스트‑투‑스피치(TTS) 시스템에서 데이터 양과 화자 구성이 합성 품질 및 모델 안정성에 미치는 영향을 종합적으로 분석한다. 연구 배경으로는 기존 고품질 유닛 선택 TTS가 수십 시간 규모의 단일 화자 데이터에 의존하는 반면, 신경망 기반 TTS는 더 많은 데이터가 필요하지만 다양한 화자 데이터를 효율적으로 통합할 수 있다는 점을 제시한다. 시스템은 두 단계로 구성된다. 첫 번째는 음소 기반 입력을 원‑핫 인코딩하고 전역 화자 ID와 결합한 시퀀스‑투‑시퀀스 어쿠스틱 모델이 멜‑스펙트로그램을 5프레임(80차원) 블록 단위로 예측한다. 어텐션은 이전 디코더 출력과 이전 어텐션 가중치를 모두 활용하는 정규화 어텐션 방식을 채택했으며, 스케줄링 샘플링(실제 스펙트로그램 90 % 사용)으로 학습 안정성을 높였다. 두 번째는 74명, 17개 언어에 걸친 대규모 데이터로 사전 학습된 WaveRNN‑계열 신경 보코더를 이용해 멜‑스펙트로그램을 24 kHz 10‑bit μ‑라 율 샘플로 변환한다. 실험 데이터는 내부 화자 7명(남성 2, 여성 4, 아동 1)으로 구성되었으며, 화자당 최대 25 k 발화까지 확보했다. 다양한 데이터 블렌드와 양을 조합해 총 9가지 모델을 학습하였다: 단일 화자 모델(sd‑8500, sd‑15000, sd‑25000), 여성 전용 다중 화자 모델(fe4‑2500, fe4‑5000, fe4‑8500), 혼성 다중 화자 모델(mx7‑2500, mx7‑5000, mx7‑8500), 그리고 목표 화자 데이터가 적은 불균형 모델(mx6+1250, mx6+2500). 각 모델의 안정성은 75개 발화를 무작위 생성해 어텐션 손실(스킵, 반복, 정지 등) 여부를 청취 평가함으로써 % 안정성을 측정했다. 결과는 다중 화자 모델이 전반적으로 90 % 이상 안정성을 보인 반면, 단일 화자 모델은 35 %~69 % 수준으로 크게 낮았다. 특히 여성 전용 2.5 k 발화/화자 모델이 8.5 k 발화/화자 모델보다 더 높은 안정성을 보이는 등, 데이터 양보다 화자 구성과 데이터 특성이 안정성에 큰 영향을 미쳤다. 주관적 품질 평가는 MUSHRA 방식을 사용했으며, 각 실험마다 10명의 미국 원어민 청취자가 0~100 점수로 자연스러움을 평가했다. 주요 결과는 다음과 같다. 1. **다중 화자 vs. 유닛 선택**: mx7‑5000(5 k·7화자)과 mx7‑2500(2.5 k·7화자)은 모두 기존 DNN‑guided 유닛 선택 시스템을 크게 앞섰으며, 특히 mx7‑5000이 가장 높은 점수를 기록했다. 이는 다중 화자 모델이 대규모 단일 화자 기반 유닛 선택보다 품질 면에서 우수함을 증명한다. 2. **균형 vs. 불균형 데이터**: 목표 화자 1.25 k 발화와 5 k·6다른 화자 데이터를 결합한 mx6+1250 모델은 mx7‑2500과 통계적으로 차이가 없으며, 유닛 선택보다 높은 품질을 제공했다. 이는 목표 화자 데이터가 2 시간 이하일 때 충분히 많은 보조 화자 데이터를 활용하면 고품질 TTS가 가능함을 의미한다. 3. **다중 화자 vs. 단일 화자**: 8.5 k 발화 수준의 SD 모델(sd‑8500)은 다중 화자 모델보다 낮은 점수를 받았으며, 15 k·SD 모델도 mx7‑5000과 비슷하거나 약간 낮았다. 그러나 25 k 발화 SD 모델(sd‑25000)은 다중 화자 모델을 능가했다. 즉, 단일 화자 모델이 15 시간(≈15 k 발화) 이상이면 다중 화자 모델보다 자연스러움이 높아진다. 4. **여성 전용 vs. 혼성**: 동일한 화자당 데이터 양을 유지한 경우, 여성 전용 모델과 혼성 모델 간 품질 차이는 통계적으로 유의미하지 않았다. 이는 화자 성별보다 전체 데이터 양과 다양성이 품질에 더 큰 영향을 미친다. 5. **화자 유사도**: 화자 유사도 평가에서 모든 다중 화자 모델은 목표 화자와 높은 유사도를 보였으며, 원본 녹음과의 차이만이 통계적으로 유의미했다. 따라서 다중 화자 학습이 화자 특성을 크게 손상시키지 않음을 확인했다. 종합적으로, 본 연구는 다음과 같은 실용적 가이드를 제공한다. (1) 목표 화자 데이터가 1 k~2 k 정도이면, 5 k 정도의 보조 화자 데이터를 포함한 다중 화자 모델이 품질과 안정성 모두에서 최적이다. (2) 데이터가 15 k 이상이면 단일 화자 모델이 다중 화자 모델을 앞설 수 있다. (3) 화자 성별에 따른 모델 구분은 큰 차이를 만들지 않으며, 데이터 균형보다는 전체 데이터 다양성이 중요하다. 이러한 결과는 제한된 데이터 환경에서 고품질 TTS 시스템을 구축하려는 연구자와 산업 현장에 직접적인 설계 지침을 제공한다.

데이터 절감이 시퀀스‑투‑시퀀스 신경 TTS에 미치는 영향

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기