WaveNet 보코더의 붕괴 음성 구간 탐지 및 억제 기법

본 논문은 WaveNet 보코더가 제한된 학습 데이터나 훈련·테스트 간 음향 불일치로 인해 발생하는 “붕괴 음성 구간”(갑작스러운 고에너지 노이즈 구간)을 자동으로 탐지하고, 탐지된 구간에만 선형 예측 코딩(LPC) 제약을 적용해 품질 저하를 최소화하는 방법을 제안한다. 검증 실험과 주관 청취 평가를 통해 제안 기법이 대부분의 붕괴 구간을 정확히 찾아내고, 음성 품질을 크게 향상시키면서 화자 유사도는 유지함을 확인하였다.

저자: Yi-Chiao Wu, Kazuhiro Kobayashi, Tomoki Hayashi

WaveNet 보코더의 붕괴 음성 구간 탐지 및 억제 기법
본 논문은 WaveNet 보코더가 제한된 학습 데이터나 훈련·테스트 간 음향 불일치로 인해 발생하는 “붕괴 음성 구간”(collapsed speech segment) 문제를 해결하기 위한 두 단계의 접근법을 제시한다. 첫 단계는 자동 붕괴 구간 탐지이며, 두 번째 단계는 탐지된 구간에만 선형 예측 코딩(LPC) 제약을 적용해 파형을 재생성함으로써 품질 저하를 최소화한다. **1. 배경 및 문제 정의** WaveNet은 조건부 확률 모델을 사용해 샘플 단위로 파형을 직접 생성한다. 이 방식은 기존 소스‑필터 기반 보코더보다 자연스러운 음성을 제공하지만, 학습 데이터가 충분하지 않거나 변환된 음향 특징이 원본과 크게 다를 경우 모델이 불안정해져 특정 구간에서 전 주파수에 걸쳐 동일한 높은 에너지를 가진 백색 잡음과 유사한 “붕괴” 현상이 나타난다. 이러한 현상은 특히 비평행 음성 변환(VC) 시스템에서 변환된 스펙트럼이 정확하지 않을 때 빈번히 발생한다. **2. 제안된 붕괴 구간 탐지 방법** - **참조 파형 선택**: 동일한 변환된 음향 특징을 입력으로 WORLD 보코더를 사용해 파형을 생성한다. WORLD는 전통적인 source‑filter 모델이므로 붕괴 현상이 거의 발생하지 않는다. - **Envelope 추출**: WaveNet과 WORLD가 만든 파형 각각에 대해 envelope를 추출한다. 기존 절대값 기반 방법 대신 힐버트 변환을 적용해 복소수 신호의 진폭을 정확히 계산한다. 추출 과정은 (1) 힐버트 변환, (2) 일정 길이(200 샘플) 구간별 피크 검출, (3) 300 Hz 저역통과 필터 적용의 세 단계로 구성된다. - **구간 비교**: 4 000 샘플(≈0.18 초) 길이의 비중첩 구간마다 두 envelope의 차이를 계산하고, 사전에 설정한 임계값을 초과하면 해당 구간을 “붕괴”로 판단한다. **3. LPC‑제약 재생성 기법** - **LPC 계수 추출**: WORLD가 만든 참조 파형에서 LPC 계수를 추정한다. 이때 µ‑law 인코딩·디코딩을 적용해 WaveNet과 동일한 양자화 효과를 반영한다. - **확률 마스크 적용**: WaveNet이 예측한 현재 샘플의 확률 분포 p(yₙ|·)에 Gaussian 마스크 q(yₙ) = N(μ_lpc, σ_lpc²)를 곱한다. 여기서 μ_lpc는 과거 I 샘플과 LPC 계수의 선형 결합, σ_lpc²는 LPC 예측 오차의 분산이다. - **제어 파라미터 ρ**: 마스크와 원본 확률 분포를 결합할 때 가중치 ρ를 사용한다. 기본값 0.01에서 시작해 재생성 후에도 붕괴가 남아 있으면 0.1, 1.0으로 순차적으로 증가시켜 과도한 스무딩을 방지한다. **4. 실험 설정** - **데이터**: VCC2018 SPOKE 코퍼스(8명, 비평행, 각 81 훈련·35 테스트 utterance). - **시스템**: 기존 비평행 VC 모델(DNN 기반 2단계)과 WaveNet 보코더를 결합. Noise‑shaping 기법 적용. - **파라미터**: 검출 구간 4 000 샘플, 피크 검출 윈도우 200 샘플, 저역통과 차단 주파수 300 Hz, ρ 초기값 0.01. - **평가**: 붕괴 탐지는 false accept / false reject 비율과 DET 곡선으로, 품질은 주관 청취 테스트(2‑AFC)로, 화자 유사도는 4‑point Likert 스케일로 측정. **5. 결과** - **탐지 성능**: envelope‑Hilbert 기반 방법이 기존 maxPOW, maxMCD 대비 특히 Type‑II(짧은 임펄스형) 붕괴를 높은 재현율과 낮은 오탐률로 탐지했다. DET 곡선에서 전체 오류율이 약 20% 수준이며, 인간 라벨링 대비 탐지율이 높았다. - **품질 향상**: 주관 청취 테스트에서 재생성된 샘플이 비재생성 샘플에 비해 평균 23%p 높은 선호도를 얻었으며, 통계적으로 유의미한 차이를 보였다. - **화자 유사도**: 화자 동일성 점수는 재생성 전후 차이가 없었으며, 원본 WaveNet과 동일한 수준을 유지했다. **6. 논의 및 향후 과제** 제안된 프레임워크는 붕괴 구간을 정확히 찾아내고, 필요한 구간에만 LPC 제약을 적용함으로써 과도한 스무딩을 방지한다. 현재 임계값은 전체 데이터에 대해 균일하게 적용했으나, 화자·언어·발화 길이에 따라 동적으로 조정하는 방법이 필요하다. 또한 실시간 적용을 위해 envelope 추출 및 LPC 마스크 연산을 경량화하는 연구가 진행되어야 한다. **7. 결론** 본 연구는 WaveNet 보코더가 발생시키는 붕괴 음성 구간을 자동으로 탐지하고, 탐지된 구간에만 LPC 기반 제약을 적용함으로써 음성 품질을 크게 개선하면서 화자 유사도는 유지하는 효과적인 솔루션을 제시한다. 이는 음성 변환, 음성 강화 등 변환된 특징이 불완전한 응용 분야에 실용적인 가치를 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기