시간 영역 서브밴드 기반 음성 합성기 완전 신경망 모델

본 논문은 다중 레벨 웨이블릿을 이용해 입력 음성을 여러 서브밴드로 분해한 뒤, 각 서브밴드에 경량화된 WaveNet‑유사 컨볼루션 신경망을 적용해 완전 시간 영역 텍스트‑투‑스피치(TTS) 시스템을 구현한다. 서브밴드 모델은 전체 대역 모델에 비해 파라미터 수와 연산량이 크게 감소하면서도 객관적·주관적 평가에서 우수한 성능을 보였다.

저자: Azam Rabiee, Geonmin Kim, Tae-Ho Kim

시간 영역 서브밴드 기반 음성 합성기 완전 신경망 모델
본 논문은 최신 음성 합성 기술이 직면한 “고해상도 샘플 단위 순차 생성”이라는 병목 현상을 서브밴드 기반 접근법으로 해결하고자 한다. 먼저, 저자들은 다중 레벨 웨이블릿 분석·합성(DAUBECHIES‑db10, 8 레벨)을 사용해 원본 16 kHz 음성을 8개의 서브밴드 시계열로 분해한다. 이때 다운샘플링을 생략함으로써 각 서브밴드의 샘플 수는 원본과 동일하지만, 주파수 대역이 제한돼 신호의 복잡도가 크게 낮아진다. 웨이블릿 변환은 복소수 스펙트럼을 다루는 STFT와 달리 실수 계수만을 사용하고, 오류가 발생해도 시간 축에서 국소적으로만 영향을 미치므로 복원 품질이 우수하다. 다음으로, 서브밴드 각각에 할당된 신경망 구조는 Fast WaveNet을 변형한 형태이다. 기존 전체 대역 WaveNet이 24개의 dilation 레이어(1,2,4,…,32)와 4개의 스택을 사용한 반면, 서브밴드 모델은 5개의 dilation 레이어(1,2,4,8,16)만을 사용한다. 이는 각 서브밴드가 짧은 대역폭을 갖기 때문에 적은 수의 파라미터로도 충분히 표현 가능함을 의미한다. dilated convolution의 계층적 구조는 웨이블릿 변환의 다중 스케일 특성과 형태학적으로 유사하므로, 첫 번째 레이어가 고주파, 이후 레이어가 점차 저주파를 모델링한다는 자연스러운 매핑이 이루어진다. 조건부 입력으로는 텍스트 정규화와 CMUdict 사전을 이용해 생성된 70차원 음소 시퀀스를 사용한다. 이 시퀀스는 3개의 1‑D 컨볼루션 레이어(필터 폭 5, 채널 256)로 구성된 인코더를 통해 잠재 특징 h 로 압축된다. 인코더는 언어적 정보를 자동으로 추출해 각 서브밴드 생성기에 전달함으로써, 별도의 음향 모델 없이도 완전한 텍스트‑투‑스피치 파이프라인을 구현한다. 실험에서는 인코더를 제외한 전체 대역 WaveNet 대비 성능이 크게 저하되는 것을 확인했으며, 이는 인코더가 TTS 성능에 핵심적인 역할을 함을 시사한다. 학습 목표는 모든 서브밴드에 대한 교차 엔트로피 손실을 합산한 형태이며, 이는 각 서브밴드가 독립적인 확률 분포를 학습하도록 유도한다. teacher‑forcing 실험에서는 이전 실제 샘플을 입력해 다음 샘플을 예측하도록 했으며, 서브밴드 모델은 SNR 23.5 dB, SD 4.3 dB, MSD 2.5 dB를 기록해 전체 대역 모델(18.8 dB, 8.1 dB, 5.5 dB)보다 현저히 우수한 결과를 보였다. 실제 합성(synthesis) 단계에서는 조건부 특징이 음향 정보를 충분히 제공하지 못해 양쪽 모델 모두 품질이 다소 낮아졌지만, 서브밴드 모델이 여전히 비슷하거나 약간 더 나은 성능을 유지했다. 시간 복잡도 측면에서 샘플‑단위 순차 생성은 여전히 제한적이지만, 서브밴드별 병렬 처리와 경량화된 네트워크 덕분에 전체 연산량이 크게 감소한다. 저자들은 향후 멀티스피커, 프로소디, 채널 노이즈 등 추가적인 조건을 잠재 특징에 통합하거나, 흐름 기반(normalizing flow) 혹은 비자율(autoregressive) 대체 모델을 도입해 실시간 합성 속도를 더욱 향상시킬 가능성을 제시한다. 결론적으로, 웨이블릿 기반 서브밴드 분해와 경량화된 WaveNet 구조를 결합한 본 모델은 복잡도와 품질 사이의 균형을 효과적으로 맞추며, 완전 시간 영역에서 텍스트‑투‑스피치를 구현할 수 있는 새로운 방향을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기