비지도 적대적 도메인 적응을 활용한 다언어 화자 검증 향상
본 연구는 영어 데이터로 학습된 x‑vector 화자 인증 시스템을 중국어 테스트 환경에 적용하기 위해, 라벨이 없는 목표 언어 데이터를 이용한 무지도 적대적 도메인 적응(ADDA)을 제안한다. ADDA를 적용한 결과, 기존 시스템 대비 EER이 9.331 %에서 7.645 %로 18 % 이상 감소했으며, 기존의 Domain Adversarial Training(DAT)보다도 12 % 정도 추가 개선을 달성하였다.
저자: Wei Xia, Jing Huang, John H.L. Hansen
본 논문은 언어 불일치가 화자 검증 시스템에 미치는 부정적 영향을 해결하고자, 라벨이 없는 목표 언어 데이터를 활용한 무지도 적대적 도메인 적응 기법을 제안한다. 기존 화자 인증 기술은 주로 i‑vector와 PLDA 기반이었으나, 최근에는 TDNN 기반 x‑vector가 우수한 성능을 보여 널리 사용되고 있다. 그러나 x‑vector 모델 역시 학습에 사용된 언어와 테스트 언어가 다를 경우 성능 저하가 발생한다. 이를 극복하기 위해 두 가지 적대적 학습 방법을 도입한다.
첫 번째는 Domain Adversarial Training(DAT)이다. DAT는 공유 피처 인코더와 두 개의 분류기(화자 분류기와 언어(도메인) 분류기)로 구성되며, 언어 분류기 앞에 Gradient Reversal Layer를 삽입해 인코더가 언어 정보를 제거하도록 학습한다. 이 방식은 소스와 타깃 데이터가 동일한 클래스 분포를 가정한다는 제한이 있다.
두 번째는 Adversarial Discriminative Domain Adaptation(ADDA)이다. ADDA는 원본 이미지 분류 연구에서 제안된 비대칭 매핑 방식을 차용한다. 소스 인코더와 타깃 인코더를 별도로 두고, 소스 인코더는 사전 학습된 상태로 고정한다. 이후 타깃 인코더를 적대적 판별기와의 최소‑극대 게임을 통해 소스 데이터와 구별이 어려운 분포로 맞춘다. 이때 판별기는 소스와 타깃 인코더가 만든 임베딩을 입력받아 도메인 라벨을 예측하며, 타깃 인코더는 판별기의 손실을 최대화하도록 학습한다. 이러한 구조는 소스와 타깃이 서로 다른 클래스(언어) 분포를 가질 때도 안정적인 적응을 가능하게 한다.
실험 설정은 다음과 같다. 소스 데이터는 영어 기반 NIST SRE04‑08, Mixer 6, Switchboard이며, 이를 이용해 x‑vector 모델을 학습한다. 타깃 데이터는 라벨이 없는 중국어 AISHELL‑1의 훈련 부분을 사용한다. 평가에는 AISHELL‑1 테스트 세트(20명, 7,176 utterances)와 143,520개의 트라이얼을 이용한다. x‑vector 추출 후 23‑dim MFCC와 VAD를 적용하고, 데이터 증강을 위해 잡음·리버버레이션을 추가한다.
ADDA와 DAT 모두 3‑layer DNN 기반 인코더와 판별기를 사용하고, 학습률 1e‑4, 배치 크기 128, 100 epoch을 적용한다. ADDA는 소스 인코더를 초기화값으로 사용해 타깃 인코더를 100 epoch 추가 학습한다. 백엔드로는 PLDA와 PLDA‑unsupervised 적응을 적용했으며, LDA를 통해 256 차원으로 차원 축소하였다.
결과는 표와 DET 곡선으로 제시된다. 기본 x‑vector 시스템의 EER은 9.331 %였으며, DAT 적용 시 8.126 %로 약 13 % 감소하였다. ADDA 적용 시에는 7.645 %까지 낮아져 18 % 이상의 상대적 개선을 보였다. 또한, ADDA는 DAT 대비 12 % 정도 추가적인 EER 감소 효과를 나타냈다. DET 곡선에서도 ADDA가 가장 낮은 오류율을 기록했으며, 특히 낮은 False Accept Rate 구간에서 두드러진 성능 향상을 확인할 수 있다.
이러한 결과는 다음과 같은 시사점을 제공한다. 첫째, 무지도 적대적 도메인 적응이 라벨링 비용 없이도 언어 간 도메인 차이를 효과적으로 완화한다는 점이다. 둘째, ADDA의 비대칭 구조가 소스와 타깃이 서로 다른 클래스 분포를 가질 때도 안정적인 적응을 가능하게 하여, 기존의 공유 인코더 기반 DAT보다 우수함을 입증한다. 셋째, 사전 학습된 소스 인코더를 초기값으로 활용함으로써 적응 과정에서의 수렴 속도와 최종 성능이 향상된다. 마지막으로, 본 연구는 영어 기반 대규모 화자 모델을 그대로 유지하면서도 새로운 언어(중국어) 환경에 적용할 수 있는 실용적인 방법을 제시한다. 향후 연구에서는 다국어 다중 도메인에 대한 확장, 더 복잡한 네트워크 구조(예: Transformer 기반 인코더)와의 결합, 그리고 실시간 서비스 적용을 위한 경량화 방안 등을 탐색할 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기