텍스트만으로 표현력 있는 말투를 예측하는 TP‑GST 모델

TP‑GST는 Tacotron에 Global Style Tokens를 결합하고, 텍스트 인코더 출력만으로 스타일 토큰 가중치(TPCW) 혹은 스타일 임베딩(TPSE)을 예측한다. 별도 라벨이나 참조 오디오 없이도 억양·에너지·노이즈 제거를 제어할 수 있으며, 단일·다중 화자 실험에서 기존 Tacotron 대비 청취자 선호도가 크게 향상되었다.

저자: Daisy Stanton, Yuxuan Wang, RJ Skerry-Ryan

텍스트만으로 표현력 있는 말투를 예측하는 TP‑GST 모델
본 논문은 현대 TTS 시스템이 직면한 ‘표현력 있는 말투’를 텍스트만으로 구현하는 문제를 해결하고자, Global Style Tokens(GST)를 기반으로 한 새로운 아키텍처인 TP‑GST(Text‑Predicted Global Style Tokens)를 제안한다. GST는 Tacotron에 추가된 모듈로, 참조 오디오의 스펙트로그램을 인코딩해 얻은 프로소디 임베딩을 사전에 정의된 스타일 토큰들의 가중합으로 표현한다. 기존 GST‑Tacotron은 추론 시 참조 오디오나 수동으로 선택한 토큰 가중치를 필요로 했지만, TP‑GST는 이러한 부가 입력 없이도 텍스트만으로 스타일을 예측한다. TP‑GST는 두 가지 예측 경로를 제공한다. 첫 번째인 TPCW(Text‑Predicted Combination Weights)는 텍스트 인코더(CBHG)에서 나온 시퀀스 출력을 64‑유닛 GRU‑RNN으로 요약한 뒤, 완전 연결층을 통해 GST 조합 가중치를 직접 예측한다. 예측된 가중치는 softmax를 거쳐 토큰에 할당되며, 학습 시에는 실제 GST 가중치와 교차 엔트로피 손실을 사용해 정규화한다. 두 번째 경로인 TPSE(Text‑Predicted Style Embeddings)는 동일한 텍스트 요약 벡터를 여러 개의 완전 연결층에 통과시켜 스타일 임베딩 자체를 예측한다. 여기서는 L1 손실을 적용해 GST가 생성한 스타일 임베딩과의 차이를 최소화한다. 두 경로는 동시에 학습될 수 있으며, 추론 단계에서는 TPCW‑GST, TPSE‑GST, 혹은 기존 GST‑Tacotron 중 하나를 자유롭게 선택한다. 핵심 설계는 텍스트 인코더와 동일한 구조의 요약 GRU‑RNN을 사용해 가변 길이 텍스트 시퀀스를 고정 차원의 벡터로 변환한다는 점이다. 이는 GST에서 참조 오디오를 요약하는 Reference Encoder와 구조적으로 일치하여, 텍스트와 오디오 양쪽에서 동일한 차원의 스타일 정보를 추출한다. 실험은 크게 단일 화자와 다중 화자 두 파트로 나뉜다. 단일 화자 실험에서는 147시간 분량의 미국식 오디오북(Blizzard 2013 스피커 Catherine Byers)을 사용했으며, 20개의 스타일 토큰과 4‑head 어텐션을 적용했다. TPCW와 TPSE 모두를 동시에 학습시켰고, TPSE 경로는 단일 히든 레이어(64유닛)만 사용했다. 결과는 다음과 같다. 1. **스타일 토큰 다양성**: 학습된 토큰들은 F0와 log‑C0(에너지)에서 뚜렷한 차이를 보였으며, 각각의 토큰을 선택해 합성하면 피치, 에너지, 말속도 등이 독립적으로 변한다. 이는 GST가 원래 목표로 했던 전역 스타일 표현을 유지함을 의미한다. 2. **텍스트 기반 합성 품질**: 동일한 문장을 베이스라인 Tacotron과 비교했을 때, TPCW‑GST와 TPSE‑GST는 피치 하강 현상이 크게 완화되고, 스펙트로그램에서 더 풍부한 고주파 성분을 보였다. 특히, 기존 Tacotron이 훈련 데이터에 포함된 잡음까지 재생산하는 경향이 있었지만, TP‑GST는 자동으로 잡음을 억제했다. 3. **주관적 청취 평가**: 260개의 미보 문장을 7‑point Likert 스케일로 비교했으며, TPCW‑GST와 TPSE‑GST 모두 베이스라인보다 높은 선호도를 기록했다(p‑value < 0.001). 두 경로 간 차이는 통계적으로 유의미하지 않아, 어느 방식을 사용해도 스타일 제어 효과가 비슷함을 확인했다. 4. **자동 노이즈 제거**: 훈련 데이터에 약 10% 수준의 고주파 배경 잡음이 포함돼 있었으며, TP‑GST는 이 잡음을 효과적으로 억제했다. 약 6%의 청취자 코멘트가 “배경 잡음이 사라졌다”고 언급했으며, 이는 GST가 잡음과 깨끗한 음성을 구분하는 능력을 텍스트 예측 단계까지 전이시킨 결과로 해석된다. 다중 화자 실험에서는 기존의 Multi‑speaker Tacotron 구조에 TP‑GST를 결합했다. 화자 임베딩(64‑dim)과 스타일 토큰을 공유함으로써, 화자 정체성과 스타일이 서로 독립적으로 학습되었다. 결과적으로 서로 다른 화자들이 동일한 스타일 토큰을 적용받아도 화자 고유의 음색을 유지하면서 스타일 변화를 표현할 수 있었다. 전체적으로 TP‑GST는 (1) 라벨링 없이 텍스트만으로 전역 스타일을 예측, (2) 잡음 제거와 같은 부가 효과 제공, (3) 화자·스타일 분리를 통한 다중 화자 지원이라는 세 가지 주요 장점을 갖는다. 향후 연구 과제로는 토큰 수와 어텐션 헤드 수 최적화, 더 다양한 도메인(대화체, 뉴스 등)에서의 일반화 검증, 그리고 텍스트‑스타일 매핑을 강화하기 위한 사전 학습된 언어 모델과의 결합이 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기