CNN 기반 코덱 후처리로 음성 품질 혁신

본 논문은 통신 시스템에서 흔히 발생하는 코덱화된 음성의 품질 저하 문제를 해결하기 위해, 기존 코덱 구조를 전혀 변경하지 않고 디코딩 직후에 적용 가능한 두 가지 CNN 기반 포스트프로세싱 방법을 제안한다. 첫 번째는 시간 영역에서 직접 파형을 복원하는 엔드‑투‑엔드 방식이며, 두 번째는 켑스트럼(cepstral) 도메인에서 스펙트럼 특성을 분석·합성하는 방식이다. 서론에서는 코덱화된 음성이 겪는 주요 왜곡 요인으로 원거리 배경 잡음, 양자화 잡음, 전송 오류 등을 열거하고, 기존의 G.711 전용 포스트필터가 양자화 잡음을 백색 잡음으로 가정하고 Wiener 필터링을 적용하는 한계를 지적한다. 특히 비트레이트가 낮아질수록 양자화 잡음이 비선형적으로 증가하고, 전통적인 MSE 최소화 기반 필터는 청각적 왜곡을 충분히 억제하지 못한다는 점을 강조한다. 이에 저자는 최근 이미지 초해상도 분야에서 성공을 거둔 CNN 기반 인코더‑디코더 구조를 차용한다. 네트워크는 여러 층의 1‑D 컨볼루션과 디컨볼루션을 대칭적으로 배치하고, 각 레이어 사이에 스킵 연결을 삽입해 잔차 학습을 가능하게 함으로써 깊은 네트워크에서도 안정적인 학습을 보장한다. 시간 영역 모델은 10 ms 혹은 20 ms 길이의 프레임을 입력으로 받아, 윈도우링·오버랩‑어드(OLA) 방식을 통해 연속적인 파형을 재구성한다. 손실 함수는 PESQ 기반 가중 MSE와 L1 정규화를 결합해 객관적 품질과 청각적 자연스러움을 동시에 최적화한다. 케프스트럼 영역 모델은 먼저 프레임을 FFT로 변환하고 로그 파워 스펙트럼을 켑스트럼 계수로 변환한다. 이 계수를 CNN에 입력해 잡음·양자화 왜곡이 제거된 켑스트럼을 출력하고, 역 FFT와 OLA를 통해 시간 파형을 복원한다. 켑스트럼 기반 접근은 주파수 해상도에서 세밀한 조정이 가능해 고주파 대역의 잡음 억제와 스펙트럼 형태 복원에 강점을 가진다. 학습 데이터는 다양한 환경에서 수집한 10 k시간 이상의 깨끗한 음성에, 백색 잡음·실제 통신 채널 잡음·패킷 손실을 시뮬레이션해 합성한 30 k쌍의 (손상, 정답) 데이터를 사용하였다. 각 코덱(G.711, G.726, G.722, AMR‑WB)에 대해 별도 모델을 훈련했으며, 동일한 하이퍼파라미터(학습률 1e‑4, 배치 크기 64, 100 epoch)로 비교 가능성을 확보하였다. 평가에서는 PESQ, STOI, ViSQOL 등 객관적 지표와 ITU‑T P.835 기반의 주관 청취 테스트를 병행하였다. 결과는 다음과 같다. 시간 영역 CNN은 전반적인 잡음 억제와 파형 왜곡 감소에 유리했으며, 켑스트럼 영역 CNN은 특히 고주파 대역에서의 스펙트럼 복원에 뛰어났다. 두 모델 모두 기존 G.711 포스트필터 대비 평균 PESQ 향상 0.25~0.82 MOS를 기록했으며, 주관 테스트에서는 0.36~1.77 CMOS의 유의미한 개선을 달성하였다. 특히 G.711 코덱에 적용한 켑스트럼 CNN은 “원본 비코덱 음성보다도 우수”하다는 통계적 결론을 얻었다. 시스템 구현 측면에서 저자는 켑스트럼 기반 모델의 소스 코드를 공개했으며, 실시간 처리 지연이 2 ms 이하(프레임 길이와 OLA 지연 포함)로 모바일 및 VoIP 시스템에 적용 가능함을 입증하였다. 한계점으로는 훈련 데이터의 다양성에 따라 일반화 성능이 변동할 수 있다는 점과, 매우 낮은 비트레이트(≤ 8 kbps)에서 양자화 잡음이 비선형적으로 작용해 현재 구조만으로는 완전한 복원이 어려울 수 있다는 점을 제시한다. 향후 연구 방향으로는 멀티태스크 학습을 통한 잡음 억제와 에코 제거 동시 처리, 변분 오토인코더 기반 비지도 학습을 통한 데이터 효율성 향상, 그리고 실시간 하드웨어 구현을 위한 경량화 모델 설계 등을 제안한다.

CNN 기반 코덱 후처리로 음성 품질 혁신

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기