길이 변동에 강인한 화자 검증을 위한 딥 세그먼트 어텐션 임베딩

본 논문은 LSTM 기반 화자 검증에서 훈련 시 고정 길이 세그먼트만 사용하고 테스트 시 전체 발화를 평균하는 방식의 불일치를 해소하기 위해, 슬라이딩 윈도우로 발화를 여러 세그먼트로 나눈 뒤 각 세그먼트를 LSTM으로 임베딩하고, 다중 헤드 어텐션 풀링으로 전체 발화 수준의 임베딩을 생성하는 딥 세그먼트 어텐션 임베딩(DSAE) 방법을 제안한다. 세그먼트‑레벨과 발화‑레벨 두 단계의 GE2E 손실을 공동 최적화하고, 어텐션 다양성을 위한 패널…

저자: Bin Liu, Shuai Nie, Yaping Zhang

길이 변동에 강인한 화자 검증을 위한 딥 세그먼트 어텐션 임베딩
본 논문은 화자 검증(speaker verification) 분야에서 LSTM 기반 임베딩 모델이 훈련 단계와 테스트 단계 사이에 발생하는 “길이 불일치” 문제를 해결하고자 한다. 기존 LSTM‑GE2E 방식은 훈련 시 무작위로 추출한 고정 길이 세그먼트만을 사용해 화자 임베딩을 학습하고, 테스트 시에는 동일 발화의 모든 세그먼트를 평균해 최종 임베딩을 만든다. 이 과정에서 훈련에 사용된 세그먼트 길이와 테스트에 사용되는 전체 발화 길이가 크게 달라질 경우, 모델이 학습한 특성이 테스트에 그대로 적용되지 않아 성능 저하가 발생한다. 특히 훈련 데이터가 짧은 발화로 구성되고, 테스트 데이터가 긴 발화인 경우 이러한 불일치는 더욱 두드러진다. 이를 극복하기 위해 저자들은 “딥 세그먼트 어텐션 임베딩(Deep Segment Attentive Embedding, DSAE)”이라는 새로운 프레임워크를 제안한다. 핵심 아이디어는 발화를 일정한 길이의 세그먼트들로 나눈 뒤, 각 세그먼트를 독립적인 LSTM 네트워크에 통과시켜 세그먼트‑레벨 임베딩을 얻고, 이들 임베딩을 다중 헤드 어텐션 풀링을 통해 가중 평균함으로써 발화‑레벨 임베딩을 생성하는 것이다. 구체적인 구현 과정은 다음과 같다. 1) 슬라이딩 윈도우(길이 T는 80~120프레임, 50% 오버랩)를 사용해 발화를 N개의 고정 길이 세그먼트 \(\{x_n\}_{n=1}^N\)로 분할한다. 2) 각 세그먼트는 동일한 LSTM(3층, 각 층 512 유닛)과 선형 프로젝션 레이어(출력 차원 256)를 통과해 마지막 타임스텝의 은닉 상태 \(h_{Tn}\)를 추출한다. 3) 이 벡터를 L2 정규화하여 세그먼트‑레벨 임베딩 \(e_n = \frac{h_{Tn}}{\|h_{Tn}\|_2}\)을 만든다. 4) 다중 헤드 어텐션 메커니즘을 적용한다. 각 세그먼트 임베딩에 대해 \(\alpha_n = \text{softmax}(g(e_nW_1)W_2)\)를 계산하고, 여기서 \(W_1\in\mathbb{R}^{d_e\times d_a}\), \(W_2\in\mathbb{R}^{d_a\times d_r}\)이며, \(g(\cdot)\)는 ReLU이다. 어텐션 헤드 수 \(d_r\)를 1, 2, 5 등으로 설정할 수 있다. 5) 어텐션 가중치를 이용해 발화‑레벨 임베딩 \(\tilde e = \sum_{n=1}^N \alpha_n e_n\)을 구한다. 다중 헤드가 사용될 경우 \(\tilde e\)는 각 헤드별 가중 평균을 연결(concatenate)하거나 평균화해 최종 임베딩을 만든다. 학습 목표는 두 단계의 GE2E 손실을 동시에 최소화하는 것이다. 발화‑레벨 손실 \(L_u\)는 기존 GE2E와 동일하게 각 발화 임베딩 \(\tilde e_{ji}\)와 해당 화자 중심 \(c_j = \frac{1}{P}\sum_i \tilde e_{ji}\) 사이의 코사인 유사도를 스케일링 파라미터 \(w,b\)와 함께 사용한다. 손실식은 \(\mathcal{L}(\tilde e_{ji}) = -S_{ji,j} + \log\sum_{k=1}^Q e^{S_{ji,k}}\)이며, 전체 발화‑레벨 손실은 모든 화자·발화에 대해 합산한다. 세그먼트‑레벨 손실 \(L_s\)는 동일한 GE2E 구조를 세그먼트 임베딩 \(e_n\)에 적용한다. 즉, 각 세그먼트는 자신이 속한 화자 중심과 가깝게, 다른 화자 중심과는 멀게 학습된다. 이 손실을 도입함으로써 어텐션 메커니즘이 “스피커 구분력이 높은” 세그먼트를 자동으로 강조하도록 유도한다. 또한 다중 헤드 어텐션이 서로 중복되지 않게 하기 위해 패널티 \(L_p = \|A^TA - I\|_F^2\)를 추가한다. 여기서 \(A =

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기