보이지 않는 잡음에 강한 DNN 기반 음성 향상 몬테카를로 드롭아웃 활용

본 논문은 딥 뉴럴 네트워크(DNN)를 이용한 단일 채널 음성 향상에서 훈련에 사용되지 않은 잡음과 SNR 조건에 대한 성능 저하 문제를 해결하고자 한다. 기존의 음성 향상 방법은 스펙트럼 뺄셈, Wiener 필터링, 최소 평균 제곱 오차(MMSE) 추정 등 비지도 방식과, 최근에는 청정 음성과 잡음이 섞인 데이터를 이용해 지도 학습을 수행하는 DNN 기반 방법으로 크게 두 갈래로 나뉜다. 특히 DNN 기반 접근법은 다층 구조를 통해 복잡한 비선형 매핑을 학습함으로써 기존 방법보다 우수한 성능을 보였지만, 훈련 데이터에 포함되지 않은 잡음 유형이나 훈련 시 사용된 SNR 범위를 벗어난 상황에서는 일반화가 크게 떨어진다. 이를 극복하기 위해 저자들은 드롭아웃을 베이지안 추정기로 재해석한다. Gal과 Ghahramani(2016)의 연구에 따르면, 훈련 시 적용한 드롭아웃을 테스트 단계에서도 유지하고 여러 번 전방 전달을 수행하면, 각 전달마다 다른 서브 네트워크가 활성화되어 모델 파라미터에 대한 사후 분포를 근사할 수 있다. 이렇게 얻은 다수의 출력 샘플을 평균하면 예측 평균(E(S))이 되고, 샘플 간 분산은 예측 불확실성(V(S))으로 해석된다. **첫 번째 방법: 단일 모델에 MC‑Dropout 적용** - 데이터: TIMIT 음성 데이터와 NOISEX‑92에서 추출한 5가지 잡음(Factory2, M109, Babble, Leopard, Volvo)으로 훈련. 각 잡음에 대해 0 dB, 5 dB, 10 dB SNR을 적용해 총 15개의 조건을 만든다. - 네트워크 구조: 입력은 32 ms 프레임의 magnitude STFT(257 차원), 은닉층 3개(각 2048 뉴런, ReLU), 출력층 257 차원(ReLU). 손실은 로그 스펙트럼 차이에 대한 평균 제곱 오차. - 학습: Adam 옵티마이저, 드롭아웃 비율(논문에 명시되지 않았지만 일반적으로 0.2~0.5) 적용. - 테스트: 훈련에 사용되지 않은 화이트, 핑크, Factory1 잡음에 대해 동일한 SNR(−10 dB, −5 dB, 0 dB, 5 dB, 10 dB)에서 평가. 각 프레임에 대해 T=50번의 MC‑Dropout을 수행하고, 출력 평균을 최종 스펙트럼 추정값으로 사용한다. 실험 결과, 저 SNR(−10 dB, −5 dB)에서 SSE가 약 10~30% 감소하고, SSNR이 0.5~2 dB 향상되었다. 특히 화이트 노이즈와 같이 훈련에 전혀 등장하지 않은 잡음에 대해 큰 이득을 보였다. 반면, 훈련에 포함된 Factory2 잡음에 대해서는 큰 차이가 없으며, 높은 SNR(5 dB, 10 dB)에서는 개선 폭이 감소한다. 이는 MC‑Dropout이 모델 파라미터 공간을 샘플링해 과적합을 완화하고, 보이지 않는 데이터에 대한 예측을 더 안정적으로 만든다는 점을 입증한다. **두 번째 방법: 다중 모델과 불확실성 기반 프레임 선택** - 모델 구성: 위와 동일한 구조의 DNN을 각각 5가지 잡음(Factory2, M109, Babble, Leopard, Volvo)에 대해 별도 학습한다. 각 모델은 동일한 SNR(0, 5, 10 dB)에서 훈련된다. - 테스트 흐름: 테스트 시 각 프레임에 대해 5개 모델 모두 T=50번의 MC‑Dropout을 수행한다. 각 모델에 대해 예측 평균과 예측 분산을 계산하고, 가장 낮은 분산을 보인 모델을 해당 프레임의 최종 모델로 선택한다. 선택된 모델의 평균 출력을 사용해 스펙트럼을 복원하고, 위상은 원래 잡음 신호의 위상을 그대로 사용한다. - 핵심 가정: 예측 분산(불확실성)은 실제 제곱 오차와 양의 상관관계를 가진다. 따라서 불확실성이 가장 낮은 모델이 실제 오류가 가장 작을 가능성이 높다. 실험에서는 불확실성-오차 상관관계를 시각화한 Figure 3을 제시한다. 결과는 저 SNR(−10 dB, −5 dB)에서 상관계수가 0.8 이상으로 강하게 나타났으며, 훈련에 사용된 SNR(0, 5, 10 dB)에서는 상관계수가 급격히 감소한다. 이는 모델이 훈련 데이터와 유사한 SNR에서는 불확실성이 실제 오류를 잘 반영하지 못한다는 것을 의미한다. 실제 성능 측면에서는 다중 모델 방식이 단일 MC‑Dropout 모델 대비 SSE가 추가로 5~15% 감소하고, SSNR이 0.3~1 dB 향상되는 결과를 보였다. 그러나 SNR이 높아질수록 개선 효과가 감소한다는 한계가 있다. **결론 및 향후 과제** - MC‑Dropout을 이용한 평균 예측은 보이지 않는 잡음과 저 SNR 상황에서 DNN 기반 음성 향상의 일반화 성능을 실질적으로 향상시킨다. - 모델 불확실성을 활용한 프레임 단위 모델 선택은 불확실성-오차 상관관계가 강한 상황(특히 저 SNR)에서 유용하며, 다중 잡음 모델을 동시에 운용할 수 있는 가능성을 제시한다. - 향후 연구는 (1) 불확실성-오차 관계를 정량화하고 위험 최소화(Risk Minimization) 프레임워크에 통합하는 방법, (2) 불확실성을 직접 예측하는 메타‑모델을 설계해 선택 정확도를 높이는 방안, (3) 더 다양한 잡음 유형과 실시간 적용을 위한 경량화된 MC‑Dropout 구현 등을 포함한다.

보이지 않는 잡음에 강한 DNN 기반 음성 향상 몬테카를로 드롭아웃 활용

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기