보편적 음성 내용 분해를 통한 제로샷 보이스 컨버전 및 텍스트‑투‑스피치 활용

본 논문은 “Universal Speech Content Factorization”(USCF)이라는 새로운 프레임워크를 제안한다. USCF는 기존 Speech Content Factorization(SCF)의 장점을 유지하면서, 화자 집합에 제한되지 않는 보편적인 음성‑내용 매핑을 제공한다. 핵심 아이디어는 WavLM과 같은 대규모 사전학습된 SSL 모델의 특징 공간이 화자마다 일정한 서브스페이스 구조를 가지고 있다는 사실에 기반한다. 이 구조를 이용해 다수 화자의 content‑aligned 특징을 모아 하나의 큰 행렬 X를 만든 뒤, rank‑r 트렁케이션 SVD를 수행하면 내용 행렬 C와 화자별 변환 행렬 Sᵢ가 도출된다. SCF는 이 C와 Sᵢ를 사용해 고품질 보이스 컨버전을 가능하게 했지만, 새로운 화자에 대해선 전체 SVD 과정을 다시 수행해야 하는 폐쇄형 한계가 있었다. USCF는 이를 해결하기 위해 두 단계의 선형 변환을 도입한다. 첫 번째 단계는 모든 학습 화자에 대해 구한 C와 Sᵢ를 이용해 보편적인 speech‑to‑content 매핑 W를 학습한다. 논문에서는 세 가지 형태의 W를 제시한다. - **W₁**: SVD에서 얻은 좌측 직교 행렬 U와 특이값 Σ를 분리하고, U에 직접 최소제곱을 적용해 content 방향을 균등하게 학습한다. - **W₂**: 각 화자 변환 행렬 Sᵢ를 항등 행렬 I에 가깝게 만드는 목표로 설정해, 변환 행렬 자체를 역변환한다. - **W₃**: content와 timbre가 선형적으로 독립한다는 가정 하에, 임의의 화자 변환 행렬 Sᵢ의 무어‑펜로즈 역행렬을 그대로 사용한다. 실험에서는 W₁이 품질·내용·화자 유사성 모두에서 가장 균형 잡힌 결과를 보였으며, W₂는 화자 유사성이 높지만 품질이 다소 낮고, W₃는 내용 보존에 강하지만 화자 유사성이 가장 낮았다. 두 번째 단계는 목표 화자에 대한 변환 행렬 Sₘ을 추정하는 것이다. 목표 화자 음성 몇 초(≈10초)만 확보하면, 해당 프레임 X′ₘ에 보편적 매핑 W를 적용해 C′≈X′ₘW 를 얻고, 이를 이용해 Sₘ≈(X′ₘW)† X′ₘ 로 선형 연산만으로 계산한다. 이 과정은 추가적인 신경망 학습이 필요 없으며, “one‑shot” 화자 적응을 가능하게 한다. **실험 설계** - 데이터: LibriSpeech에서 4개의 겹치지 않는 20명 화자 집합(소스, 타깃, held‑out 1, held‑out 2) 사용. - 베이스라인: kNN‑VC, LinearVC, SCF(폐쇄형), SeedVC(최신 diffusion‑transformer 기반 제로샷 VC). - 평가 지표: Whisper‑large 기반 WER, UTMOS‑v2, ECAPA‑TDNN 기반 화자 임베딩 코사인 유사도, MOS/SMOS 주관 평가. **주요 결과** - USCF(W₁)는 WER 2.70 %, UTMOS 2.805, 화자 유사도 0.524 로 kNN‑VC(3.16 % WER, 2.855 UTMOS, 0.666)와 비슷하거나 약간 뒤처졌다. - 주관적 MOS/SMOS에서는 USCF가 대부분 베이스라인과 통계적으로 차이가 없으며, SeedVC보다 선호도가 높았다. - 화자 변환 행렬을 추정할 때 목표 화자 데이터가 500프레임(≈10 초) 이하이면 화자 유사도가 급격히 떨어지지만, 5000~10000프레임에서는 성능이 안정된다. - Rank 실험에서 50~100 차원 사이에서 안정적인 품질을 유지하고, 20 차원 이하에서는 품질이 급격히 저하된다. **내용 보존 vs 화자 억제 분석** - TIMIT TEST 셋에서 USCF( rank 75, W₁ )를 추출해 phoneme 분류 정확도는 WavLM과 동등했으며, 동일 phoneme 내에서 화자 구분 정확도는 WavLM(21.77 % EER)보다 낮은 36.40 % EER를 기록, 즉 화자 정보가 효과적으로 억제됨을 확인했다. - Rank를 1024로 확대해도 화자 억제 효과는 유지되며, 이는 단순히 차원 축소에 의한 현상이 아니라 선형 매핑 자체가 content‑timbre를 분리한다는 증거다. **TTS 활용** - USCF 특징을 mel‑spectrogram 대신 acoustic target으로 사용해 TTS 모델을 학습하였다. 동일한 모델 구조와 학습 설정에서 USCF 기반 TTS는 25 epoch 만에 UTMOS‑v2 2.881을 달성했으며, WavLM 기반 mel‑spectrogram은 39 epoch에 2.741을 기록했다. 또한 ASR WER도 11.44 %로 경쟁력 있었다. 이는 USCF가 timbre‑disentangled, content‑preserving 특성을 갖는 효율적인 음성 표현임을 보여준다. **기여 정리** 1. **보편적 speech‑to‑content 매핑**: 최소제곱 기반 W₁, W₂, W₃를 제안하고, 특히 W₁이 실용적 균형을 제공함. 2. **one‑shot 화자 적응**: 몇 초 분량의 목표 화자 데이터만으로 변환 행렬 Sₘ을 선형적으로 추정, 추가 학습 불필요. 3. **제로샷 VC**: 기존 SSL‑structure 기반 방법과 비교해 경쟁력 있는 intelligibility, naturalness, speaker similarity 달성. 4. **TTS 적용**: USCF 특징을 acoustic target으로 사용해 학습 효율 및 품질 모두에서 기존 방법을 능가. **의의와 한계** USCF는 완전 선형 구조에 기반하므로 구현이 간단하고, 대규모 실시간 서비스에 적합하다. 그러나 화자 유사도가 kNN‑VC·LinearVC에 비해 약간 낮은 점, 그리고 목표 화자 데이터가 10 초 이하일 경우 성능 저하가 발생한다는 점은 향후 비선형 보정이나 데이터 효율성을 높이는 연구가 필요함을 시사한다. **결론** USCF는 “보편적”이라는 개념을 선형 최소제곱 최적화와 one‑shot 화자 변환 행렬 추정이라는 두 축으로 구현함으로써, 기존 SCF의 폐쇄형 제약을 극복하고 제로샷 보이스 컨버전 및 timbre‑disentangled TTS라는 두 주요 응용 분야에서 실용적인 성능을 입증하였다. 앞으로 더 다양한 언어·도메인에 대한 일반화와 비선형 확장의 가능성을 탐색한다면, 음성 합성·변환 분야에서 중요한 기반 기술로 자리매김할 전망이다.

보편적 음성 내용 분해를 통한 제로샷 보이스 컨버전 및 텍스트‑투‑스피치 활용

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기