스타일 제어와 전이를 위한 변분 오토인코더 기반 엔드투엔드 TTS
본 논문은 변분 오토인코더(VAE)를 Tacotron2 기반 엔드투엔드 텍스트‑투‑스피치(TTS) 시스템에 결합하여, 화자의 말하기 스타일을 무감독 방식으로 잠재 공간에 학습한다. 학습된 잠재 변수는 차원별로 피치 높이, 피치 변동, 발화 속도 등 스타일 요소를 독립적으로 제어할 수 있으며, 참조 음성을 통해 추출한 스타일 벡터를 TTS에 주입함으로써 스타일 전이도 가능하게 한다. KL 발산 붕괴 문제를 완화하기 위해 KL annealing과 …
저자: Ya-Jie Zhang, Shifeng Pan, Lei He
본 논문은 변분 오토인코더(VAE)를 최신 엔드투엔드 텍스트‑투‑스피치(TTS) 모델인 Tacotron2에 통합하여, 화자의 말하기 스타일을 무감독 방식으로 학습하고 이를 제어·전이하는 새로운 프레임워크를 제안한다. 서론에서는 현재 고품질 중립 음성 합성은 거의 인간 수준에 도달했지만, 감정·억양·스타일과 같은 표현적 요소를 자유롭게 조절하는 연구가 활발히 진행되고 있음을 언급한다. 기존의 Global Style Token(GST) 방식은 스타일 토큰을 학습하지만, 연속적인 잠재 공간을 제공하지 못하고, 스타일 전이 시에도 제한적인 표현력을 보인다.
VAE의 기본 원리(잠재 변수 z 와 관측 데이터 x 의 관계, 변분 하한, 재파라미터화 트릭)를 간략히 소개한 뒤, 제안 모델의 구조를 상세히 설명한다. 전체 네트워크는 (1) 레퍼런스 오디오를 입력받아 고정 길이 잠재 벡터 z 를 출력하는 인식 모델과, (2) 텍스트와 z 를 결합해 멜 스펙트로그램을 생성하는 Tacotron2 기반 TTS 모델로 구성된다. 레퍼런스 인코더는 6개의 2‑D 컨볼루션 레이어와 GRU 레이어로 이루어지며, 이후 두 개의 전결합층을 통해 μ와 σ 를 추정한다. z 는 재파라미터화 트릭을 통해 샘플링되고, 텍스트 인코더 출력에 차원 맞춤 전결합층을 거쳐 합산된다. 어텐션과 디코더는 Tacotron2와 동일하게 유지되며, 최종적으로 WaveNet vocoder가 멜 스펙트로그램을 파형으로 변환한다.
학습 목표는 KL 발산 손실과 재구성 손실(L2‑loss) 그리고 stop‑token 손실을 결합한 총 손실 함수이다. VAE 학습 시 흔히 발생하는 KL 붕괴 문제를 해결하기 위해 두 가지 트릭을 적용한다. 첫째, KL 가중치를 초기에는 거의 0에 가깝게 두고 점진적으로 증가시키는 KL annealing을 도입한다. 둘째, KL 손실을 매 K 스텝마다만 적용해 KL가 지나치게 빠르게 수렴하는 것을 방지한다. 이러한 전략으로 인코더가 의미 있는 스타일 정보를 유지하도록 만든다.
실험은 105시간 분량의 영어 오디오(Blizzard Challenge 2013) 단일 화자를 사용했으며, 훈련 데이터는 58,453개, 테스트는 200개이다. 멜 스펙트로그램은 80차원, 프레임 간격 12.5 ms, 프레임 길이 50 ms로 추출하였다. 베이스라인으로는 동일한 설정의 GST 모델을 사용했으며, 제안 모델의 잠재 차원은 32로 설정하였다. KL 가중치 스케줄링 파라미터 K 는 15,000 스텝 전후로 각각 100과 400으로 조정하였다.
스타일 제어 실험에서는 z 를 직접 조작해 피치 높이, 피치 변동, 발화 속도 등을 독립적으로 변화시켰다. 차원 6 을 -0.9, -0.1, 0.7으로 바꾸면 피치 높이가 순차적으로 낮아졌으며, 차원 10 을 0.1, 0.5, 0.9로 증가시키면 피치 변동이 확대되는 것을 확인했다. 두 차원을 동시에 활성화하면 두 효과가 선형적으로 결합되는 것을 스펙트로그램과 청취 실험을 통해 입증하였다. 또한 두 스타일(고음·고속 vs 저음·저속) 사이를 선형 보간함으로써 잠재 공간이 연속적이며, 보간된 중간점에서도 자연스러운 음성 품질과 스타일 변화를 얻었다.
스타일 전이 실험에서는 레퍼런스 음성을 인식 모델에 통과시켜 z 를 추출하고, 동일 텍스트를 합성하였다. 멜 스펙트로그램은 레퍼런스와 피치 높이, 휴지기, 발화 속도, 피치 변동 등에서 높은 유사성을 보였다. 청취자 대상 ABX 선호도 테스트를 병렬 전이(텍스트와 레퍼런스가 동일)와 비병렬 전이(텍스트와 레퍼런스가 서로 다름) 두 조건에서 수행했으며, 각각 60개의 샘플을 25명의 원어민 청취자가 평가하였다. 결과는 제안 모델이 GST 모델보다 통계적으로 유의미하게 높은 선호도를 얻었으며(p < 10⁻⁵), 특히 비병렬 전이에서 더 큰 차이를 보였다. 이는 VAE가 보다 일반화된 스타일 표현을 학습했음을 시사한다.
결론에서는 VAE를 통한 연속적이고 해석 가능한 스타일 잠재 공간이 TTS에 효과적으로 적용될 수 있음을 정리하고, 향후 다중 화자에 대한 확장, 보다 정교한 disentanglement 기법 도입, 그리고 데이터 증강을 위한 무작위 샘플링 활용 등을 연구 방향으로 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기