멀티마이크 원거리 음성인식을 위한 스트림 어텐션

본 논문은 다중 마이크 배열에서 DNN 기반 음성인식기의 후방 확률에 스트림 어텐션을 적용해 각 마이크의 신뢰도를 실시간으로 추정하고, 신뢰도가 높은 마이크의 posterior를 가중합하여 단일 디코딩으로 WER를 크게 감소시키는 방법을 제안한다. 다양한 ASR 성능 지표(역엔트로피, M‑measure, 자동인코더 재구성오차 등)를 이용해 어텐션 벡터를 계산하고, Mixer‑6 실험에서 특히 역엔트로피와 자동인코더 기반 어텐션이 가장 큰 개선을…

저자: Xiaofei Wang, Yonghong Yan, Hynek Hermansky

본 논문은 원거리 환경에서 다중 마이크 배열을 이용한 자동 음성 인식(ASR) 시스템의 성능 향상을 목표로, DNN‑HMM 기반 음성 인식기의 후방 확률(posterior) 위에 스트림 어텐션 프레임워크를 적용한다. 기존의 마이크 선택 방식은 에너지 기반 선택이나 라티스 결합 등으로, 잡음·반향에 취약하거나 계산량이 크게 증가한다는 한계가 있었다. 저자는 각 마이크 스트림이 제공하는 HMM 상태 posterior \(P_i^t\) 를 그대로 사용하고, 시간‑별 어텐션 가중치 \(w_i^t\) 를 곱해 재가중된 posterior \(\hat P^t = \sum_i w_i^t P_i^t\) 를 만든 뒤 단일 디코더에 입력함으로써, 여러 스트림을 동시에 활용하면서도 디코딩 비용을 최소화한다. 어텐션 가중치를 어떻게 정의할 것인가가 핵심 문제였으며, 이를 해결하기 위해 다양한 비지도 ASR 성능 지표를 실험적으로 검증하였다. 첫 번째는 역엔트로피(inverse entropy)로, 각 스트림의 posterior 엔트로피 \(H_i\) 를 계산하고 \(w_i^t \propto 1/H_i\) 로 정의한다. 엔트로피가 낮을수록 확률 분포가 뾰족해 잡음이 적은 스트림을 의미한다. 두 번째는 M‑measure와 Delta M‑measure로, 시간 간격 \(\Delta t\) 에서의 Kullback‑Leibler divergence를 누적해 장기간 신호 안정성을 평가한다. 세 번째는 자동인코더(AE) 기반 재구성 오차를 이용한 방법으로, 다층 자동인코더를 사전 학습시켜 posterior 시퀀스를 압축·복원하고, 테스트 시 재구성 오차 \(\|e_i\|_2\) 가 작을수록 신뢰도가 높다고 판단한다. 자동인코더는 TDNN 구조를 사용해 다양한 시간 컨텍스트(예: \(

멀티마이크 원거리 음성인식을 위한 스트림 어텐션

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기