음성 샘플 6초만으로 즉시 구현하는 새로운 화자 음성 모방 TTS
본 논문은 6초 길이의 음성 샘플만으로도 새로운 화자의 목소리를 즉시 모방할 수 있는 텍스트‑투‑스피치(TTS) 모델을 제안한다. 기존 다중 화자 TTS에 스피커 임베더 네트워크를 추가해 화자 임베딩을 추출하고, 이를 Tacotron 디코더에 입력함으로써 별도 학습 없이 실시간 음성 모방을 가능하게 한다. 실험 결과, 제안 모델은 기존 다중 화자 TTS와 비교해 음질·화자 유사도 모두 경쟁력을 보이며, 화자 임베딩이 잠재적인 음성 구조를 잘 포…
저자: Younggun Lee, Taesu Kim, Soo-Young Lee
**1. 연구 배경 및 동기**
최근 WaveNet·SampleRNN과 같은 신경망 기반 보코더와 Tacotron·Deep Voice와 같은 엔드‑투‑엔드 TTS 모델이 고품질 음성 합성을 가능하게 했다. 다중 화자 TTS는 화자 인덱스를 조건으로 넣어 여러 목소리를 생성할 수 있지만, 새로운 화자를 추가하려면 해당 화자에 대한 임베딩을 학습하기 위해 추가 데이터와 재학습이 필요했다. 기존 연구(Taigman et al., 2018)는 새로운 화자에 대해 텍스트와 화자 인덱스를 함께 사용해 임베딩을 미세조정했지만, 전사 필요와 학습 시간이라는 제약이 있었다. 따라서 전사 없이 짧은 샘플만으로 즉시 화자를 모방할 수 있는 방법이 요구된다.
**2. 제안 모델 구조**
제안 모델은 두 부분으로 구성된다.
- **Tacotron 기반 TTS**: 기존 Tacotron의 인코더·디코더·포스트프로세서 구조를 그대로 사용한다. 디코더 단계에서 화자 임베딩을 추가 입력으로 받는다.
- **스피커 임베더 네트워크**: 1‑D 컨볼루션 5층(채널 128, 커널 3)과 2개의 완전 연결층(128 유닛)으로 이루어지며, 마지막 레이어는 비선형 없이 임베딩을 출력한다. 입력은 로그‑멜 스펙트로그램이며, 맥스‑오버‑타임 풀링을 통해 시간 차원을 1로 압축한다.
학습 시에는 전체 파이프라인을 한 번에 학습한다. 손실 함수는 멜 스펙트로그램과 선형 스펙트로그램에 대한 L1 손실을 합한 형태이며, 화자 임베딩에 대한 직접적인 레이블은 존재하지 않는다. 따라서 임베딩은 TTS 손실을 최소화하도록 간접적으로 최적화된다.
**3. 데이터 및 전처리**
VCTK 코퍼스(109명, 약 400문장/화자)를 사용했다. 텍스트는 영문 알파벳·숫자·구두점만 남기고 전처리했으며, 오디오에서는 WebRTC Voice Activity Detector로 무음 구간을 제거하였다. 최종 데이터는 29.97시간이며, 로그‑멜·로그‑선형 스펙트로그램을 50 ms 프레임, 12.5 ms 스트라이드로 추출했다.
**4. 학습 절차**
다중 화자 Tacotron과 동일한 하이퍼파라미터를 사용했으며, 스피커 임베더는 6초 길이의 윈도우를 겹쳐서 만든 샘플을 무작위로 제공했다. 텍스트와 화자 샘플은 일치하지 않게 하여 모델이 입력 음성을 그대로 복제하는 것을 방지했다. 99명의 화자를 학습에 사용하고, 10명을 테스트용으로 보류하였다(성별·연령·억양이 고르게 분포).
**5. 실험 및 결과**
- **임베딩 시각화**: PCA를 적용한 결과, 성별과 억양에 따라 클러스터가 형성되어 임베딩이 화자 특성을 잘 포착함을 확인했다.
- **청취자 설문**: 두 가지 설문을 진행했다. 첫 번째는 음질 평가(MOS)로, 제안 모델과 기존 다중 화자 모델 간 차이가 통계적으로 유의미하지 않았다. 두 번째는 화자 구분 테스트로, 제안 모델이 약 78%의 정확도를 보였으며, 다중 화자 모델은 75% 수준으로 비슷하거나 약간 낮았다.
- **샘플 재현**: 6초 샘플만으로도 새로운 화자의 목소리를 자연스럽게 재현했으며, 텍스트와 무관하게 동일 화자 특성이 유지되는 것을 청취자가 확인했다.
**6. 논의**
제안 모델은 (1) 전사 없이 짧은 샘플만으로 즉시 화자 모방이 가능, (2) 기존 Tacotron 파이프라인을 그대로 활용해 구현이 간단, (3) 스피커 임베더 입력을 음성 외에도 이미지·텍스트 등으로 교체 가능해 멀티모달 확장이 용이하다는 장점을 가진다. 그러나 현재 임베더는 충분히 긴(6초) 샘플을 전제로 하며, 1~2초 수준에서는 화자 특성 추출이 불안정할 수 있다. 또한 노이즈가 많은 실시간 녹음에 대한 강건성 검증이 부족하다.
**7. 결론 및 향후 연구**
본 논문은 6초 음성 샘플만으로 새로운 화자를 즉시 모방할 수 있는 TTS 프레임워크를 제시하였다. 실험을 통해 음질·화자 유사도 모두 기존 다중 화자 모델과 경쟁력을 보였으며, 화자 임베딩이 잠재적인 음성 구조를 잘 반영함을 확인했다. 향후 연구에서는 더 짧은 샘플, 잡음 환경, 멀티모달 입력을 통한 임베딩 강화, 그리고 실시간 서비스 적용을 위한 경량화 등을 탐구할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기