퍼뮤테이션 불변 학습으로 풀어낸 스피커 독립 다중 화자 음성 분리

본 논문은 라벨 순서에 구애받지 않는 퍼뮤테이션 인베리언트 트레이닝(PIT) 기법을 제안한다. PIT는 출력‑라벨 매칭을 손실 계산 단계에서 최적화함으로써 스피커 독립 다중 화자 음성 분리에서 오래된 라벨 퍼뮤테이션 문제를 근본적으로 해결한다. WSJ0‑2mix 및 Danish‑2mix 데이터셋 실험에서 NMF, CASA, DPCL 등 기존 방법들을 능가하는 SDR 향상을 보이며, 실시간 회의 기록 등 실제 서비스 적용 가능성을 제시한다.

저자: Dong Yu, Morten Kolb{ae}k, Zheng-Hua Tan

퍼뮤테이션 불변 학습으로 풀어낸 스피커 독립 다중 화자 음성 분리
본 논문은 스피커 독립 다중 화자 음성 분리, 즉 ‘칵테일 파티 문제’를 해결하기 위한 새로운 학습 프레임워크인 퍼뮤테이션 인베리언트 트레이닝(Permutation Invariant Training, PIT)을 제안한다. 기존의 딥러닝 기반 접근법은 주로 두 가지 형태로 나뉜다. 첫 번째는 다중 클래스 회귀 방식으로, 입력 혼합 신호에 대해 각 화자별 마스크 또는 스펙트럼을 직접 예측하도록 네트워크를 학습한다. 이 경우 출력 스트림과 라벨(정답) 사이의 순서가 고정돼 있기 때문에, 학습 데이터에 포함된 화자 순서가 바뀔 경우 라벨 퍼뮤테이션 문제—즉, 어느 출력이 어느 화자에 대응되는지 모호함—가 발생한다. 두 번째는 딥 클러스터링(Deep Clustering, DPCL) 방식으로, 각 시간‑주파수(TF) 셀에 임베딩을 학습시켜 클러스터링을 통해 화자를 구분한다. DPCL은 라벨 퍼뮤테이션을 클러스터링 단계에서 해결하려 하지만, TF 셀이 하나의 화자에만 속한다는 가정과 비연속적인 클러스터링 과정이 실제 복합 신호에 부정확성을 초래한다. PIT는 이러한 문제를 근본적으로 해결한다. 핵심 아이디어는 “출력‑라벨 매핑을 손실 계산 단계에서 최적화한다”는 것이다. 구체적으로, 네트워크는 N개의 연속 프레임(메타‑프레임)으로 구성된 스펙트럼 특징을 입력받아 S개의 출력 스트림(각 화자에 대응)으로 마스크 혹은 복원된 스펙트럼을 출력한다. 학습 시, 가능한 모든 S!개의 출력‑라벨 할당을 열거하고, 각 할당에 대해 전체 MSE(Mean Squared Error)를 계산한다. 그 중 최소 MSE를 보이는 할당을 선택하고, 선택된 할당에 대한 MSE만을 역전파에 사용한다. 따라서 네트워크는 “어떤 출력이 어떤 화자와 가장 잘 맞는가”를 스스로 판단하면서 동시에 분리 오차를 최소화한다. 이 과정은 프레임 단위로 독립적으로 수행되며, 화자 수가 적은 경우(보통 2~3명) 계산 비용이 크게 부담되지 않는다. 모델 구조는 DNN, CNN, LSTM 등 다양한 아키텍처에 적용 가능하다. 입력은 257 차원의 STFT magnitude를 여러 프레임 쌓아 만든 메타‑프레임이며, 프레임 길이와 스트라이드는 실험에 따라 조정된다. 출력은 각 화자별 마스크(softmax를 통해 0~1 사이로 정규화)이며, 마스크와 원본 혼합 스펙트럼을 곱해 복원된 스펙트럼을 얻는다. 손실은 마스크가 아니라 복원된 스펙트럼 magnitude와 실제 스펙트럼 magnitude 사이의 MSE이며, 이는 무음 구간에서도 의미 있는 학습을 가능하게 한다. 실험은 두 개의 공개 데이터셋, WSJ0‑2mix와 Danish‑2mix에서 수행되었다. WSJ0‑2mix은 WSJ0 코퍼스에서 무작위로 화자와 발화를 선택해 0~5 dB SNR 범위에서 섞은 30 h 훈련, 10 h 검증, 5 h 테스트 셋을 제공한다. Danish‑2mix은 덴마크어 코퍼스에서 0 dB 고정 SNR로 섞은 데이터로, 닫힌 조건(CC, 훈련에 사용된 화자)과 열린 조건(OC, 미보인 화자) 테스트를 각각 1 k개씩 구성하였다. 또한 3‑talker(three‑mix) 버전도 구축했지만, 본 논문에서는 2‑talker 실험에 초점을 맞추었다. 학습 곡선은 라벨 퍼뮤테이션 문제가 존재하는 기존 방식(Conventional Training)에서는 검증 MSE가 거의 감소하지 않지만, PIT를 적용하면 빠르게 수렴해 낮은 MSE를 달성함을 보여준다. 성능 평가는 SDR(Signal‑to‑Distortion Ratio) 향상으로 측정했으며, 두 가지 할당 시나리오를 제시한다. ‘기본 할당(Default Assignment)’은 프레임 간 출력‑화자 매핑이 변하지 않는다고 가정한 보수적 추정이며, ‘최적 할당(Optimal Assignment)’은 각 메타‑프레임마다 실제 혼합 라벨을 이용해 매핑을 재조정한다. 후자는 스피커 트레이싱 알고리즘을 적용했을 때 얻을 수 있는 이론적 최상위 성능을 의미한다. 결과는 다음과 같다. WSJ0‑2mix에서 PIT‑CNN(101 ms 메타‑프레임) 모델은 기본 할당 시 8.4 dB, 최적 할당 시 8.6 dB의 SDR 향상을 기록했다. 이는 기존 NMF(5.1 dB), CASA(2.9 dB), DPCL(6.5 dB)보다 우수하며, DPCL+와 같은 대규모 모델(10.3 dB)보다는 약간 낮지만, 모델 크기와 학습 복잡도 면에서 경쟁력이 있다. Danish‑2mix의 열린 조건에서도 PIT‑CNN은 7.7 dB·7.8 dB의 향상을 보여, 언어와 화자에 대한 일반화 능력이 뛰어남을 입증한다. 또한, 메타‑프레임 길이를 51 ms로 줄여도 9.6 dB(기본)·9.8 dB(최적) 수준의 성능을 유지해 실시간 적용 가능성을 시사한다. PIT의 가장 큰 장점은 구현이 간단하고 기존 네트워크에 바로 적용 가능하다는 점이다. 라벨 매핑을 손실에 포함시키는 방식은 복소수 도메인 처리, 위상 복원, 혹은 고차원 임베딩과 같은 다른 고급 기법과도 자연스럽게 결합될 수 있다. 또한, 프레임 단위 매핑 변화를 추적하는 스피커 트레이싱 모듈을 추가하면, 현재 실험에서 보인 기본 할당과 최적 할당 사이의 격차를 메우는 추가 이득을 기대할 수 있다. 따라서 PIT는 현재와 미래의 다중 화자 음성 인식, 회의 자동 기록, 인간‑컴퓨터 인터랙션 등 실시간 음성 처리 시스템에 핵심적인 기반 기술이 될 가능성이 크다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기