완전 지도학습 기반 화자 다이어리제이션 UISRNN
본 논문은 d‑vector 임베딩을 입력으로 사용하여, 화자별 파라미터를 공유하는 RNN을 시간축에서 교차시켜 모델링하고, 거리‑의존 중국 레스토랑 프로세스(ddCRP)와 결합한 완전 지도학습 화자 다이어리제이션 시스템인 UIS‑RNN을 제안한다. 온라인 방식으로 추론하며, NIST SRE 2000 CALLHOME 데이터셋에서 7.6%의 DER을 달성해 기존 스펙트럴 클러스터링 기반 방법을 능가한다.
저자: Aonan Zhang, Quan Wang, Zhenyao Zhu
본 연구는 화자 다이어리제이션 문제를 “누가 언제 말했는가”를 판별하는 과제로 정의하고, 기존 시스템이 다수의 독립 모듈(음성 구분, 임베딩 추출, 클러스터링, 재분할)으로 구성된 반면, 클러스터링 단계만이 비지도 방식에 의존한다는 한계를 지적한다. 이를 해결하기 위해 저자들은 완전 지도학습 기반의 새로운 모델인 Unbounded Interleaved‑State Recurrent Neural Network (UIS‑RNN)를 제안한다.
UIS‑RNN은 입력으로 d‑vector라 불리는 화자 구분 임베딩 시퀀스 X=(x₁,…,x_T)를 받는다. 각 x_t는 240 ms 슬라이딩 윈도우에서 추출된 512‑차원 벡터이며, 해당 시점의 화자 라벨 y_t는 정수형으로 표시된다. 모델은 세 가지 확률적 구성 요소로 이루어진다. 첫 번째는 화자 전환 여부를 나타내는 이진 변수 z_t이며, 이는 독립적인 베르누이(p₀) 분포를 따른다. 두 번째는 화자 할당 과정으로, 거리‑의존 중국 레스토랑 프로세스(ddCRP)를 사용한다. z_t=1일 때 새로운 화자에 전환할 확률은 하이퍼파라미터 α에 비례하고, 기존 화자 k로 돌아갈 확률은 해당 화자가 이전에 연속해서 말한 블록 수 N_{k,t‑1}에 비례한다. 이렇게 하면 화자 수가 사전에 정해지지 않아도 무한히 많은 화자를 모델링할 수 있다. 세 번째는 시퀀스 생성 모델이다. 모든 화자는 파라미터를 공유하는 GRU 기반 RNN에 의해 표현되며, 특정 화자 y_t에 대한 마지막 관측 시점 t₀의 은닉 상태 h_{t₀}와 현재 입력 x_t를 이용해 h_t=GRU(x_t, h_{t₀})를 계산한다. 은닉 상태를 선형 변환 f(·)하여 m_t를 얻고, 같은 화자에 할당된 모든 m_s의 평균 μ_{y_t}를 구한다. 최종 임베딩 x_t는 평균 μ_{y_t}와 공분산 σ²I를 갖는 정규분포에서 샘플링된다고 가정한다.
학습 단계에서는 전체 훈련 데이터셋에 대해 로그 우도 L=∑_n ln p(X_n, Y_n, Z_n | θ, α, σ², p₀)를 최대화한다. 파라미터 θ와 σ²는 미니배치 기반 확률적 경사 상승으로 업데이트하고, α와 p₀는 닫힌 형태 해(α는 ddCRP의 베타 사전, p₀는 베르누이 성공 확률) 혹은 동일한 경사 방식으로 최적화한다.
추론 시에는 전체 라벨 공간을 전부 탐색하는 것이 비현실적이므로, 온라인 그리디 MAP 디코딩을 적용한다. 각 시점 t마다 가능한 (y_t, z_t) 조합에 대해 로그 확률을 계산하고, 빔 서치를 통해 후보 수를 제한한다. 이 과정은 O(T) 혹은 화자 수가 제한된 경우 O(T·C) 수준의 연산 복잡도를 보이며, 실시간 처리에 적합하다.
실험은 기존 시스템(
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기