WaveNet 기반 초저비트 음성 코딩 2.4kbps 고품질 구현

본 논문은 기존 파라메트릭 코더의 2.4 kb/s 비트레이트를 유지하면서 WaveNet 생성 모델을 활용해 고품질 음성을 복원하고, 동일 모델을 이용한 파형 코딩은 큰 비트레이트 증가를 초래한다는 사실을 실험적으로 입증한다.

저자: W. Bastiaan Kleijn, Felicia S. C. Lim, Alej

WaveNet 기반 초저비트 음성 코딩 2.4kbps 고품질 구현
본 논문은 초저비트(2 ~ 3 kb/s) 음성 코딩을 목표로, 최신 딥러닝 기반 생성 모델인 WaveNet을 파라메트릭 코더와 파형 코더 두 가지 형태로 적용한 연구이다. 기존 파라메트릭 코더는 스펙트럼, 피치, 전력, 보이스링 레벨 등 제한된 파라메터만 전송하고, 디코더에서 이를 기반으로 신호를 재구성한다. 그러나 모델의 표현력이 부족하면 재구성 품질이 크게 저하된다. 반면 파형 코더는 원본 파형 자체를 압축 전송하지만, 이는 높은 비트레이트를 요구한다. 저자들은 이러한 딜레마를 해소하기 위해 WaveNet을 조건부 확률 모델로 활용한다. 먼저 파라메트릭 코딩 구조를 설계한다. 인코더는 오픈소스 코덱인 Codec 2를 사용해 20 ms 블록당 36 bit(스펙트럼) + 7 bit(피치) + 5 bit(전력) + 2 bit(보이스링) 총 50 bit, 즉 2.4 kb/s 비트레이트로 파라메터를 압축한다. 이 파라메터는 10 ms 간격으로 고정되어 WaveNet 디코더에 전달된다. 디코더는 과거 출력 샘플과 전달된 파라메터를 입력으로 받아, µ‑law 8‑bit 양자화된 다음 샘플의 확률 분포를 예측하고, 이를 샘플링해 16 kHz 고해상도 음성을 순차적으로 생성한다. 이 과정에서 WaveNet은 훈련 시 123명의 화자를 포함한 대규모 데이터셋으로 학습되었으며, 화자 라벨을 사용하지 않아 화자에 대한 의존성을 최소화한다. 두 번째 구조는 파형 코딩이다. 여기서는 파라메터와 함께 실제 양자화된 파형 인덱스(n_i)를 전송한다. 인코더와 디코더 모두 동일한 WaveNet 모델을 사용해 조건부 확률 q(i) 를 계산하고, 이를 기반으로 산술 코딩 등 엔트로피 코딩을 적용한다. 엔트로피는 H̄ = –(1/|A|) Σ_i Σ_n q_i(n) log₂ q_i(n) 로 측정되며, 실제 전송 비트는 R = –(1/|A|) Σ_i log₂ q_i(n_i) 로 추정한다. 실험 결과 두 값이 거의 일치해 모델이 실제 파형 분포를 잘 근사함을 확인한다. 그러나 파라메트릭 코딩에 비해 전체 비트레이트는 약 42 kb/s(16 kHz 기준)로 급증한다. 정보 이론적 분석에서는 전체 정보량을 H(S,Θ) = H(Θ) + H(S|Θ) 로 분해하고, H(S|Θ) 를 WaveNet이 생성하는 샘플의 조건 엔트로피로 직접 측정한다. 파라메트릭 코딩에서는 H(Θ) 가 2.4 kb/s에 해당하고, H(S|Θ) 가 약 42 kb/s이므로 파라메트릭 방식은 실제 전송 비트가 거의 없고, 디코더가 자체적으로 정보를 생성한다는 점을 강조한다. 반면 파형 코딩은 H(Θ) 외에 양자화된 파형 자체를 전송해야 하므로 비트레이트가 크게 늘어난다. 음질 평가에서는 POLQA와 주관적 청취 테스트를 수행했다. 비교 대상은 Codec 2, MELP, Speex Wideband(모두 2.4 kb/s), 그리고 고비트레이트 G.711(128 kb/s)와 AMR‑WB(23 kb/s)이다. WaveNet 파라메트릭 코더는 MOS 점수에서 기존 저비트 코더들을 크게 앞섰으며, G.711 수준에 근접한 품질을 보였다. 또한, 화자 식별 실험에서 훈련에 포함되지 않은 8명의 테스트 화자에 대해 청취자와 신경망 기반 식별 모델 모두 높은 정확도를 유지했으며, 이는 모델이 화자 고유 특성을 보존하면서도 일반화 능력이 뛰어남을 의미한다. 결론적으로, WaveNet을 활용한 파라메트릭 코딩은 기존 저비트 코더가 갖는 품질 한계를 뛰어넘으며, 파형 코딩과 비교했을 때 비트레이트 효율성이 현저히 우수함을 입증한다. 향후 연구 과제로는 파라메터 전송 효율을 더욱 높이기 위한 압축 기법, 실시간 디코딩을 위한 경량화 모델, 그리고 인코더에서 파라메트릭과 파형 모드 간 동적 전환을 통한 적응형 비트레이트 제어가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기