계층적 생성 모델을 이용한 제어 가능한 음성 합성
본 논문은 텍스트‑투‑스피치(TTS) 시스템에 두 단계의 계층적 잠재 변수를 도입해, 라벨이 거의 없는 말하기 스타일·억양·노이즈·녹음 환경 등을 자유롭게 제어할 수 있는 모델을 제안한다. 첫 번째는 속성 그룹을 나타내는 K‑way 범주형 변수, 두 번째는 그 조건부 다변량 정규분포로 구성된 연속형 변수이며, 두 변수를 결합해 가우시안 혼합 모델(GMM) 형태의 잠재 분포를 만든다. 실험을 통해 잡음이 섞인 실데이터에서도 화자와 스타일을 추론·…
저자: Wei-Ning Hsu, Yu Zhang, Ron J. Weiss
본 논문은 텍스트‑투‑스피치(TTS) 분야에서 라벨이 거의 존재하지 않는 말하기 스타일, 억양, 배경 잡음, 녹음 환경 등 다양한 잠재 속성을 제어할 수 있는 새로운 신경망 모델을 제안한다. 기존의 Tacotron 2와 같은 시퀀스‑투‑시퀀스 TTS 모델은 텍스트와 화자 라벨만을 입력으로 사용해 음성을 생성하지만, 훈련 데이터에 포함된 다양한 비정형 속성을 명시적으로 다루지 못한다. 이를 해결하기 위해 저자들은 변분 오토인코더(VAE) 프레임워크에 두 단계의 계층적 잠재 변수를 도입한 ‘GMV‑AE‑Tacotron’ 모델을 설계하였다.
첫 번째 잠재 변수 yₗ는 K‑way 범주형 변수이며, ‘깨끗/노이즈’, ‘정상/감정’ 등 인간이 직관적으로 구분할 수 있는 속성 그룹을 나타낸다. yₗ는 균등 사전(p(yₗ)=1/K)을 갖고, 각 클래스마다 평균 μ_yₗ와 대각 공분산 σ_yₗ를 학습한다. 두 번째 잠재 변수 zₗ는 yₗ에 조건부로 연결된 D‑차원 연속형 변수로, p(zₗ|yₗ)=𝒩(μ_yₗ,diag(σ_yₗ))를 따른다. 따라서 전체 잠재 분포는 가우시안 혼합 모델(GMM) 형태가 되며, 각 혼합 컴포넌트가 데이터 내의 특정 클러스터에 대응하도록 유도한다.
관찰 가능한 라벨(예: 화자)도 동일한 계층 구조에 포함시키기 위해, y_o와 연결된 연속 변수 z_o를 추가한다. p(z_o|y_o)=𝒩(μ_y_o,diag(σ_y_o))는 화자마다 작은 분산을 갖도록 초기화해, 화자 고유 특성을 압축된 형태로 표현한다. 이렇게 하면 z_o와 zₗ이 서로 다른 요인을 담당하게 되어, 화자와 스타일·노이즈 등을 독립적으로 조작할 수 있다.
모델 학습은 변분 추론을 기반으로 한다. 인코더는 입력 멜 스펙트로그램 X 로부터 q(zₗ|X)와 q(yₗ|X)를 추정한다. q(zₗ|X)는 평균·분산을 출력하는 신경망이며, q(yₗ|X)는 zₗ에 대한 GMM 후방 확률 p(yₗ|zₗ)를 이용해 닫힌 형태로 계산한다. ELBO는 (i) 재구성 로그우도, (ii) 연속 잠재 변수에 대한 KL divergence, (iii) 범주형 잠재 변수에 대한 KL divergence 로 구성된다. 재파라미터화 기법을 통해 전 과정이 미분 가능하도록 설계하였다.
네트워크 아키텍처는 Tacotron 2 기반의 합성기, 잠재 인코더, 관찰 인코더 세 부분으로 이루어진다. 텍스트 인코더는 문자·음소 시퀀스를 임베딩하고, 자동 회귀 디코더는 멜 스펙트로그램을 순차적으로 예측한다. zₗ와 y_o(또는 z_o)는 디코더 입력에 concat 형태로 삽입되어, 매 프레임마다 조건을 반영한다. 파형 복원을 위해 WaveRNN 보코더를 사용해 고품질 음성을 생성한다.
실험은 네 개의 데이터셋(다양한 화자·채널·노이즈·스타일)에서 수행되었다. y_o는 화자 수에 따라 설정하고, yₗ은 10‑way 범주형 변수(K=10), zₗ와 z_o는 16‑차원(D=16)으로 설정하였다. 모든 모델은 최소 200k step 이상 학습했으며, Adam 옵티마이저로 ELBO를 최적화하였다. 평가 지표는 주관적 MOS, F0 차이, 스펙트럼 거리 등이다.
주요 결과는 다음과 같다. 첫째, GMM 기반 잠재 공간은 GST나 단일 정규분포 VAE보다 샘플링 안정성과 속성 분리 능력이 우수했다. 둘째, yₗ가 ‘깨끗/노이즈’와 같은 클러스터를 자동으로 발견했으며, 해당 차원을 조절하면 배경 잡음 수준을 정밀하게 제어할 수 있었다. 셋째, z_o를 통해 화자 라벨이 없는 상황에서도 화자 임베딩을 추정하고, 노이즈가 섞인 음성으로부터 화자 특성을 분리해 깨끗한 음성을 고품질로 재생성할 수 있었다. 특히, 훈련에 사용된 실데이터에 잡음과 다양한 화자가 동시에 존재함에도 불구하고, 모델은 화자와 노이즈를 성공적으로 분리하고, 새로운 화자의 스타일을 자유롭게 합성하는 데 성공하였다.
이 논문은 세 가지 측면에서 기존 연구를 크게 확장한다. (1) 계층적 GMM‑VAE를 통한 잠재 속성의 해석 가능·분리·제어 메커니즘을 제공한다. (2) 관찰 라벨(화자)과 비관찰 라벨(스타일·노이즈)을 동시에 모델링함으로써, 라벨이 부족한 실데이터에서도 고품질 TTS를 구현한다. (3) 가우시안 혼합 사전이 자동으로 클러스터를 발견하고, 각 차원의 통계적 독립성을 활용해 미세 제어가 가능한 구조를 제시한다. 이러한 기법은 데이터 증강, 음성 변환, 맞춤형 음성 서비스 등 다양한 응용 분야에 활용될 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기