Few‑샘플로 구현하는 신경망 기반 음성 클로닝
본 논문은 소수의 음성 샘플만으로도 화자의 고유한 음성을 복제할 수 있는 두 가지 방법, 즉 스피커 적응과 스피커 인코딩을 제안한다. 다중 화자 TTS 모델을 사전 학습한 뒤, 적은 데이터로 파인튜닝하거나 별도의 인코더가 화자 임베딩을 직접 추정하도록 설계한다. 실험 결과 두 방법 모두 자연스러움과 화자 유사도에서 우수한 성능을 보였으며, 인코딩 방식은 메모리·시간 효율성이 뛰어나 저자원 환경에 적합함을 확인했다.
저자: Sercan O. Arik, Jitong Chen, Kainan Peng
본 논문은 개인화된 음성 인터페이스를 위한 핵심 기술인 ‘음성 클로닝(voice cloning)’을 다루며, 특히 몇 초 수준의 소량 샘플만으로도 새로운 화자의 음성을 합성할 수 있는 방법을 제안한다. 연구는 크게 두 갈래로 나뉜다. 첫 번째는 기존에 다중 화자를 학습한 TTS 모델을 새로운 화자 데이터에 맞게 미세조정하는 ‘스피커 적응(Speaker Adaptation)’이며, 두 번째는 별도의 ‘스피커 인코더(Speaker Encoder)’를 통해 클로닝 오디오 집합으로부터 직접 화자 임베딩을 추정하는 ‘스피커 인코딩(Speaker Encoding)’이다.
1. **배경 및 관련 연구**
- 딥러닝 기반 TTS(Deep Voice, Tacotron, WaveNet 등)는 텍스트와 화자 임베딩을 조건으로 고품질 음성을 생성한다. 다중 화자 모델은 화자 임베딩을 저차원 벡터로 학습하지만, 훈련에 사용되지 않은 화자에 대해서는 직접 생성이 불가능하다.
- Few‑shot 학습은 인간이 적은 예시만으로 새로운 개념을 습득하는 현상을 모방하려는 연구 분야이며, 베이지안 모델부터 메타‑러닝까지 다양한 접근이 있다. 본 연구는 이러한 아이디어를 음성 합성에 적용한다.
2. **문제 정의 및 모델 설계**
- 다중 화자 생성 모델 f(t, s; W, e_s)를 텍스트 t와 화자 s(임베딩 e_s)를 입력으로 받아 스펙트로그램을 출력하도록 정의한다. 전체 파라미터 W와 화자 임베딩 e_s를 손실 L(예: L2)로 최소화하며 학습한다.
- **스피커 적응**: 사전 학습된 W와 기존 화자 임베딩을 고정하고, 새로운 화자에 대한 소수 텍스트‑오디오 쌍을 이용해 ê_s 혹은 전체 W를 업데이트한다. 전체 모델을 업데이트하면 표현력이 크게 늘지만, 데이터가 적을 경우 과적합을 방지하기 위해 조기 종료와 정규화가 필요하다.
- **스피커 인코딩**: 별도 인코더 g(A; Θ)를 설계해 클로닝 오디오 집합 A를 입력으로 화자 임베딩 ê_s = g(A; Θ)를 직접 예측한다. 인코더는 (i) 프리넷 기반 스펙트럼 전처리, (ii) Conv‑GLU‑Residual 기반 장기 컨텍스트 추출, (iii) 멀티‑헤드 셀프‑어텐션을 통한 샘플 가중치 학습으로 구성된다.
3. **학습 절차**
- **다중 화자 모델**: LibriSpeech(2484명, 820 h)와 VCTK(108명) 데이터를 사용해 Seq2Seq 기반 Convolutional TTS 모델(Deep Voice 3 변형)을 학습한다. 파라미터는 약 25 M이며, Griffin‑Lim 기반 보코더를 사용한다.
- **스피커 인코더**: 사전 학습된 다중 화자 모델에서 각 화자에 대한 임베딩 b_e를 추출하고, L1 손실로 g(A; Θ) → b_e를 학습한다. 필요 시 전체 시스템을 공동 파인튜닝해 손실을 최소화한다.
4. **평가 방법**
- **주관적 평가**: MOS(Naturalness)와 SMOS(Similarity) 설문을 통해 인간 청취자의 주관적 판단을 수집한다.
- **객관적 평가**: (①) 화자 분류 모델을 학습시켜 클론 음성이 원본 화자와 동일하게 분류되는 비율을 측정, (②) 텍스트‑독립 스피커 검증 모델을 이용해 EER을 계산한다. 이 두 지표는 각각 화자 유사도와 전체 시스템의 구분 능력을 정량화한다.
5. **실험 결과**
- **스피커 적응**은 전체 모델 파인튜닝 시 NMOS ≈ 4.2, SMOS ≈ 4.0을 달성했으며, 5초 이하의 클로닝 샘플에서도 높은 품질을 유지했다. 그러나 파라미터 업데이트와 GPU 메모리 사용량이 크게 증가해 실시간 적용이 어려웠다.
- **스피커 인코딩**은 파라미터 0.5 M, 클로닝 시간 < 0.5 s(실시간)으로 경량화되었으며, NMOS ≈ 4.0, SMOS ≈ 3.8을 기록했다. EER은 7 % 수준으로, 적응 방식보다 약간 높은 편이지만 실용적인 수준이다.
- 임베딩 조작 실험에서는 성별·억양 변환(voice morphing)이 가능함을 시연했으며, 이는 임베딩 공간이 의미론적 구조를 가지고 있음을 시사한다.
6. **논의 및 한계**
- 스피커 인코딩은 메모리·시간 효율성이 뛰어나 저자원 디바이스에 적합하지만, 화자 차별성에서 전체 모델 적응에 비해 약간 뒤처진다.
- 현재 접근은 텍스트‑오디오 정렬이 전제된 Seq2Seq 구조에 의존하므로, 비정렬 음성 데이터에 대한 확장성이 제한적이다.
- 대규모 다중 화자 모델 학습 비용이 높아 실제 서비스 적용 시 사전 학습 비용이 큰 장벽이 될 수 있다.
7. **향후 연구 방향**
- 메타‑러닝 기반의 빠른 적응 메커니즘 도입으로 적은 데이터에서도 전체 모델을 효율적으로 업데이트하는 방안.
- 비지도 학습 및 대규모 비정렬 데이터 활용을 통한 인코더 강화.
- 멀티모달(텍스트·음성·영상) 통합 모델을 구축해 클로닝 품질 및 다양성 확대.
본 논문은 제한된 샘플만으로도 고품질 음성 클로닝을 실현할 수 있음을 입증했으며, 특히 스피커 인코딩 방식은 실시간·경량화 요구가 높은 실제 서비스 환경에 유망한 솔루션으로 평가된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기