비지도 학습 기반 음성 합성 제어를 위한 딥 인코더 디코더 모델

본 논문은 텍스트와 무관한 음성 변이를 제어하기 위해, 비지도 방식으로 학습되는 인코더‑디코더 구조와 VQ‑VAE를 수학적으로 연결한다. 변분 추론 관점에서 기존 휴리스틱을 해석하고, 감정 라벨 없이도 감정 표현을 조절할 수 있음을 실험을 통해 입증한다.

저자: Gustav Eje Henter, Jaime Lorenzo-Trueba, Xin Wang

비지도 학습 기반 음성 합성 제어를 위한 딥 인코더 디코더 모델
본 논문은 텍스트‑투‑스피치(TTS) 시스템이 텍스트 외의 다양한 비텍스트 변이를 어떻게 모델링하고 제어할 수 있는지를 탐구한다. 서론에서는 음성 신호가 텍스트 정보보다 훨씬 높은 비트레이트를 가지며, 그 차이는 화자 신원, 감정, 발화 상황 등 다양한 요인에 의해 발생한다는 점을 강조한다. 기존의 통계적 파라메트릭 음성 합성(SPSS)은 이러한 변이를 대부분 무작위 잡음으로 취급하거나, 라벨링된 데이터에만 의존해 제어 가능성을 제한해 왔다. 따라서 비지도 방식으로 잠재 변이를 학습하고, 이를 제어 파라미터로 활용하는 방법이 필요함을 제시한다. 관련 연구 파트에서는 (1) 전통적인 규칙 기반·유닛 선택 기반 제어, (2) MR‑HMM·Decision‑Tree 기반의 지도식 제어, (3) 비지도 제어를 위한 클러스터‑적응 학습(CAT)과 DCC(Discriminant Condition Codes) 등 최근 딥러닝 기반 접근법을 정리한다. 특히 Luong et al., Arık et al., Taitman et al. 등이 제안한 ‘학습된 문장‑레벨 제어 벡터’는 훈련 데이터마다 고유한 잠재 코드를 최적화함으로써 화자·발화 스타일을 조절했지만, 이들 방법은 잠재 변수에 대한 사전분포를 명시하지 않아 이론적 정당성이 부족했다는 점을 지적한다. 본 논문의 핵심 이론적 기여는 두 부분으로 나뉜다. 첫째, 변분 추론(Variational Inference) 프레임워크를 이용해 기존 휴리스틱을 ‘근사 최대우도 추정’으로 재해석한다. 구체적으로, 각 훈련 샘플 x 에 대해 잠재 제어 변수 z 를 최적화하고, 모델 파라미터 θ 와 교대로 업데이트하는 EM‑유사 절차가 기존 방법과 동일함을 증명한다. 이 과정에서 사전 p(z) 가 없으므로 ‘poor‑man latent variable’이라고 부른다. 둘째, 이러한 절차에 명시적인 사전과 양자화 손실을 추가한 VQ‑VAE 모델을 도입한다. VQ‑VAE는 연속 잠재 공간 대신 이산 코드북 {e₁,…,e_K} 을 사용해 z 를 가장 가까운 코드벡터에 매핑하고, 양자화 오차를 손실에 포함한다. 논문은 VQ‑VAE의 ELBO(증거 하한) 식이 기존 휴리스틱의 목적 함수와 구조적으로 동일함을 수식으로 보여준다. 이를 통해 VQ‑VAE가 기존 방법의 확장형이며, 사전 p(z) 와 양자화 제약을 통해 잠재 변수의 분산을 억제하고 보다 해석 가능한 제어 축을 제공한다는 점을 강조한다. 실험에서는 일본어 감정 음성 데이터베이스(다양한 화자·감정 라벨 포함)를 사용해 네 가지 모델을 비교한다. (i) 기존 휴리스틱 기반 모델, (ii) 사전 정보를 추가한 변형, (iii) VQ‑VAE 기반 모델, (iv) 감정 라벨을 이용한 감독식 모델. 객관적 평가지표로는 Mel‑Cepstral Distortion(MCD), F0 RMSE, 스펙트럼 차이 등을 사용했으며, 주관적 청취 테스트에서는 감정 인식 정확도와 자연스러움을 평가했다. 결과는 비지도 모델들이 감독식 모델과 거의 동등한 MCD 값을 보였고, 특히 VQ‑VAE는 코드북 크기를 조절함으로써 감정 강도와 화자 특성을 연속적으로 변조할 수 있음을 확인했다. 주관적 평가에서도 비지도 모델이 ‘감정 전달력’과 ‘자연스러움’ 면에서 경쟁력을 가졌으며, 사전 정보를 포함한 변형이 가장 높은 선호도를 얻었다. 논의에서는 비지도 제어 학습이 라벨링 비용을 크게 절감하면서도 실용적인 제어 파라미터를 제공한다는 점을 강조한다. 또한 VQ‑VAE가 이산 코드북을 통해 잠재 공간을 명시적으로 제한함으로써 ‘코드 충돌’ 문제를 방지하고, 사용자가 직관적으로 조작 가능한 제어 축을 제공한다는 장점을 언급한다. 한계점으로는 코드북 크기와 차원 선택이 성능에 큰 영향을 미치며, 현재는 전체 문장 수준의 제어에 초점을 맞추었지만, 더 세밀한 프레임‑레벨 제어를 위한 확장이 필요함을 제시한다. 결론에서는 변분 추론 기반의 이론적 정당성을 바탕으로, VQ‑VAE와 같은 딥 인코더‑디코더 구조가 비지도 상황에서도 효과적인 음성 합성 제어를 가능하게 함을 입증하였다. 향후 연구는 다중 모달(텍스트·음성·시각) 제어, 실시간 스타일 전이, 그리고 보다 복잡한 이산·연속 혼합 잠재 변수 모델을 탐구함으로써, 인간과 기계 간의 자연스러운 대화 인터페이스 구축에 기여할 수 있을 것으로 전망한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기