노이즈 제거 딥 뉴럴 네트워크 기반 음성 활동 검출

본 논문은 음성 활동 검출(VAD) 시스템에서 딥러닝 기반 모델이 갖는 한계를 짚고, 이를 극복하기 위한 새로운 구조인 denoising‑deep‑neural‑network(DDNN)를 제안한다. 기존 연구에서는 DBN을 활용해 여러 음향 특징을 융합하고, 비지도 사전 학습을 통해 초기 파라미터를 설정함으로써 좋은 일반화 성능을 얻었지만, 깊은 층이 얕은 층에 비해 뚜렷한 성능 향상을 보이지 못했다. 저자는 이 현상의 원인을 ‘노이즈와 깨끗한 음성의 매니폴드가 혼합된 상태에서 DBN이 잡음 자체를 재구성하도록 학습되기 때문에, 깊은 층이 잡음‑음성 구분에 충분히 기여하지 못한다’는 점으로 해석한다. 이에 따라 DDNN은 두 단계 학습 절차를 채택한다. 첫 번째 단계는 비지도 잡음 제거 레이어‑별 사전 학습이다. 여기서는 잡음이 섞인 음성 프레임 x를 입력으로, 동일 시점의 깨끗한 음성 프레임 ˜x를 목표로 삼는다. 각 레이어는 인코더 fθ와 디코더 gθ′로 구성되며, 교차 엔트로피 손실 L(˜x, gθ′(fθ(x)))를 최소화한다. 이 과정은 전통적인 스택드 디노이징 오토인코더와 유사하지만, 인위적인 잡음이 아니라 실제 환경 잡음을 사용한다는 점에서 차별화된다. 레이어가 여러 개 쌓이면, 상위 레이어는 이전 레이어의 출력(즉, 점진적으로 정제된 특징)을 입력으로 받아 더욱 추상적인 깨끗한 음성 특성을 학습한다. 두 번째 단계는 전체 네트워크를 하나의 분류기로 결합한 supervised fine‑tuning이다. 사전 학습된 인코더들만을 남겨 특징 추출기로 사용하고, 그 위에 선형 소프트맥스 분류기를 추가한다. 이후 전체 모델을 음성/비음성 라벨 y에 대해 교차 엔트로피 기반 최소 분류 오류(MCE)로 역전파 학습한다. 이때 디코더는 학습에 사용되지 않으며, 인코더가 잡음 제거와 특징 추출을 동시에 수행하도록 최적화된다. 실험은 AURORA2 데이터베이스의 7가지 잡음 환경(바벨, 자동차, 레스토랑, 거리, 공항, 기차, 지하철)과 4가지 SNR(−5, 0, 5, 10 dB)에서 수행되었다. 입력 특징은 피치, MFCC(8·16·20), DFT, LPC, RASTA‑PLP, AMS 등 총 10종류를 결합해 273차원 벡터로 구성하였다. 비교 대상은 전통적인 SVM, 다중 커널 SVM(MK‑SVM), 기존 DBN이며, 모두 동일한 특징 집합을 사용하였다. 모델 파라미터는 경험적으로 설정했으며(숨김 유닛 수

노이즈 제거 딥 뉴럴 네트워크 기반 음성 활동 검출

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기