발화 수준 순열 불변 학습을 통한 다중 화자 음성 분리

본 논문은 프레임 수준 순열 불변 학습(PIT)을 확장하여, 전체 발화(utterance) 수준에서 순열을 고정하는 uPIT 기법을 제안한다. LSTM 기반 RNN을 이용해 혼합 음성의 스펙트럼 마스크를 추정하고, 학습 시 전체 발화의 손실을 최소화함으로써 추론 단계에서 별도의 스피커 트레이싱 없이도 두 명·세 명 화자의 음성을 정확히 분리한다. WSJ0와 Danish 데이터셋에서 NMF·CASA 대비 우수한 성능을 보이며, DPCL·DANet…

저자: Morten Kolb{ae}k, Dong Yu, Zheng-Hua Tan

본 논문은 인간이 복잡한 청각 환경에서 여러 화자를 구분해 듣는 ‘칵테일 파티 문제’를 기계적으로 해결하고자 하는 목표 아래, 다중 화자 음성 분리를 위한 새로운 딥러닝 학습 프레임워크인 utterance‑level Permutation Invariant Training(uPIT)을 제안한다. 기존의 순열 불변 학습(PIT)은 프레임 단위에서 최적 순열을 찾고, 학습 단계에서는 라벨 순열 문제를 해결했지만, 추론 단계에서는 여전히 프레임별 순열을 추정해야 하는 ‘스피커 트레이싱’ 문제가 남아 있었다. uPIT는 손실 함수를 전체 발화(utterance) 수준으로 확장함으로써, 학습 과정에서 전체 프레임에 걸친 순열을 고정하고, 추론 시 별도의 순열 탐색 없이도 일관된 출력 스트림을 얻을 수 있다. ### 1) 문제 정의 및 신호 모델 단일 마이크로폰으로 녹음된 혼합 신호 y

발화 수준 순열 불변 학습을 통한 다중 화자 음성 분리

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기