단일채널 음성 향상을 위한 학생 교사 학습 기반 BLSTM 마스크 모델

본 논문은 BLSTM 기반 마스크 추정이 다채널 환경에서 뛰어난 성능을 보이지만, 단일채널에 그대로 적용하면 스펙트럼 왜곡으로 인해 자동음성인식(ASR) 성능이 저하되는 문제를 다룬다. 이를 해결하기 위해 학생‑교사 학습(paradigm)을 도입한다. 먼저, 다채널 빔포밍(Generalized Eigenvalue Beamformer, GEV)으로 얻은 향상된 신호를 교사 네트워크에 입력한다. 교사 네트워크는 기존 BLSTM 마스크 모델과 동일한 구조를 가지지만 출력은 스피치 마스크 하나만 제공한다. 교사 모델은 청정 신호와 비교한 이진 교차 엔트로피 손실만을 사용해 학습한다. 이때 빔포밍으로 이미 잡음이 크게 억제된 신호를 사용함으로써, 교사는 높은 품질의 ‘soft mask’를 생성한다. 학생 네트워크는 원본 노이즈 스펙트로그램(단일채널)을 입력으로 받아 스피치 마스크와 노이즈 마스크를 동시에 예측한다. 기존 BLSTM 마스크 학습에서는 스피치와 노이즈 각각에 대한 이진 교차 엔트로피 손실(loss_X, loss_N)을 합산해 최적화했지만, 여기서는 교사가 만든 soft mask w_me^X를 추가 목표로 삼는다. 즉, 학생‑교사 손실(loss_st)은 교사의 soft mask와 학생이 예측한 스피치 마스크 사이의 교차 엔트로피이다. 최종 손실은 loss = λ₁·loss_st + λ₂·loss_X + λ₃·loss_N 으로 정의되며, λ₁~λ₃는 손실 항목들의 가중치를 조절한다. 실제 녹음 데이터는 청정/노이즈 레이블이 없지만, 다채널 빔포밍을 적용하면 교사의 soft mask를 바로 얻을 수 있다. 따라서 시뮬레이션 데이터와 실제 데이터를 모두 사용해 학생 모델을 학습할 수 있다. 이 경우 실제 데이터에 대해서는 loss_st만 적용하고, 시뮬레이션 데이터에 대해서는 전체 손실을 적용한다. 실험은 CHiME‑4 데이터셋의 1채널 트랙을 대상으로 진행되었다. ASR 시스템은 Kaldi 기반 HMM‑GMM 모델을 사용했으며, 다양한 마스크 모델을 적용해 개발(dev) 및 평가(test) 세트에서 WER을 측정했다. 교사 모델은 기존 BLSTM 마스크보다 약간 낮은 WER을 보였지만, 학생 모델은 교사 모델을 능가하는 성능을 달성했다. 특히 λ₁=0.35, λ₂=0.15, λ₃=0.5 조합이 가장 좋은 결과를 주었으며, 이는 soft target 손실이 학습에 큰 영향을 미친다는 것을 의미한다. 또한 실제 녹음 데이터를 포함해 학습한 학생 모델은 실제 테스트 셋에서 추가적인 WER 감소를 보였다. 음성 향상 측면에서는 PESQ, STOI, eSTOI, SDR 네 가지 지표를 모두 계산했으며, 모든 마스크 모델이 원본 노이즈 대비 크게 향상된 점수를 기록했다. 그러나 모델 간 점수 차이는 미미했고, 향상 지표와 WER 사이에 명확한 상관관계가 없었다. 이는 ASR 목적의 손실 설계가 단순 청취 품질 지표와는 다른 최적화 목표를 갖는다는 점을 강조한다. 결론적으로, 이 연구는 학생‑교사 지식 증류를 BLSTM 마스크 추정에 성공적으로 적용함으로써, 다채널 빔포밍의 이점을 단일채널 시스템에 이전할 수 있는 실용적인 방법을 제시한다. 교사의 soft mask를 활용한 손실 설계는 단일채널 입력만으로도 다채널 수준의 잡음 억제 효과를 학습하게 하며, 실제 환경에서의 데이터 활용 가능성을 크게 확장한다.

단일채널 음성 향상을 위한 학생 교사 학습 기반 BLSTM 마스크 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기