음성 향상을 위한 완전합성곱신경망 기반 엔드투엔드 시스템

본 논문은 청각 보조 기기, 특히 보청기와 같은 실시간 음성 향상 시스템에 적용 가능한 엔드투엔드(End‑to‑End) 음성 강화 모델을 제안한다. 기존 연구들은 주로 스펙트로그램을 입력으로 사용했으며, 이는 STFT 연산 비용과 위상 정보 손실이라는 두 가지 주요 단점을 가지고 있다. 이를 극복하고자 저자는 원시 오디오 파형을 그대로 입력으로 받아 처리하는 완전합성곱신경망(Fully Convolutional Network, FCN)을 설계하였다. 시스템 설계는 크게 세 단계로 구성된다. 첫째, 데이터 전처리 단계에서는 16 kHz, 단일 채널로 다운샘플링된 오디오를 20 ms 길이의 프레임으로 나누고 50 % 겹치게 만든 뒤, Hanning 윈도우를 적용한다. 각 프레임은 전체 훈련 데이터의 평균을 빼고 표준편차로 나누어 정규화한다. 둘째, FCN 아키텍처는 ‘same’ 패딩을 사용해 입력과 출력의 시간 길이를 동일하게 유지하고, 풀링이나 팽창(dilation) 없이 5 ms(25 샘플) 크기의 커널을 적용한다. 은닉층은 합성곱 → 배치 정규화 → ReLU 또는 PReLU 순으로 구성되며, 최종 출력층은 필터 하나와 활성화 함수를 배제해 직접 파형을 복원한다. 셋째, 후처리 단계에서는 네트워크 출력에 정규화에 사용한 평균·표준편차를 역변환하고, 겹친 프레임을 오버랩‑애드(overlap‑add) 방식으로 합쳐 최종 음성을 만든다. 아키텍처 탐색은 두 단계로 진행되었다. 먼저 단일 은닉층에 대해 필터 수(50~1000)를 변화시켜 검증 손실(MSE)을 측정했으며, 필터 수가 증가할수록 손실이 약간 감소하는 경향을 보였다. 이어서 필터 수를 50, 100, 200으로 고정하고 은닉층 깊이를 1~6층까지 늘려 보니, 깊이가 증가할수록 검증 손실이 크게 감소함을 확인했다. 이를 바탕으로 70여 개의 다양한 조합을 실험한 결과, 파라미터 2,266,736개, PESQ 2.458, WER 25.718%를 기록한 모델(#53)이 최종 선택되었다. 성능 평가는 두 차원에서 수행되었다. 첫 번째는 동일 화자(Pamela)와 동일 잡음 환경에서의 일반화 능력이다. 모델을 5 dB, 0 dB, -5 dB 세 가지 SNR에서 각각 학습시킨 뒤, 테스트에서도 동일 및 다른 SNR 조건으로 평가하였다. 결과는 학습 SNR가 0 dB인 경우가 가장 강인했으며, 테스트 SNR가 -5 dB까지도 PESQ ≈ 1.35, WER ≈ 27 % 수준을 유지했다. 두 번째는 새로운 화자(Tricia)로의 일반화이다. 기존에 Pamela만으로 학습한 모델을 그대로 사용해 Tricia의 음성을 동일 잡음에 섞어 테스트했으며, PESQ ≈ 2.2, WER ≈ 30 %를 달성해 원본 잡음 대비 큰 개선을 보였다. 이러한 실험 결과는 FCN이 원시 파형에서 직접 잡음 특성을 학습하고, 화자와 잡음 환경이 변해도 비선형 필터 뱅크 형태로 일반화할 수 있음을 시사한다. 또한, 완전합성곱 구조는 파라미터 수가 비교적 적어 실시간 구현에 유리하다는 장점이 있다. 그러나 연구에는 몇 가지 한계가 존재한다. 데이터는 한 화자와 제한된 SNR(5 dB)만을 사용했으며, 다화자·다양한 잡음 유형에 대한 확장성 검증이 부족하다. 또한, 실시간 처리 지연, 메모리 요구량, 최신 Transformer 기반 모델과의 정량적 비교가 제시되지 않아 실제 보청기 적용 가능성을 평가하기엔 추가 연구가 필요하다. 결론적으로, 본 논문은 스펙트로그램 없이 원시 오디오만으로도 효과적인 음성 강화가 가능함을 입증했으며, 특히 파라미터 효율성과 화자·잡음 일반화 능력에서 유망한 결과를 보여준다. 향후 연구에서는 다화자 데이터셋, 다양한 잡음 유형, 그리고 하드웨어 최적화를 통해 실시간 보청기 시스템으로의 전이 가능성을 탐색할 필요가 있다.

음성 향상을 위한 완전합성곱신경망 기반 엔드투엔드 시스템

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기