상호정보 기반 화자 표현 학습

본 논문은 화자 인식에 필요한 고품질 임베딩을 무감독 혹은 반감독 방식으로 학습하기 위해, 상호정보(Mutual Information, MI)를 최적화 목표로 삼는 새로운 프레임워크를 제안한다. 기존 딥러닝 기반 화자 인식 시스템은 대체로 라벨이 있는 데이터를 필요로 하는 지도 학습에 의존해 왔으며, 라벨 확보 비용이 높은 현실적인 제약이 있다. 저자는 MI가 두 변수 사이의 비선형 종속성을 정량화하는 강력한 통계량이라는 점에 착안해, 화자 정체성을 반영하는 특성을 자동으로 추출하고자 한다. ### 1. 이론적 배경 MI는 두 확률변수 \(z_1, z_2\) 사이의 KL‑다이버전스로 정의되며, 독립이면 0, 완전하게 동일 정보를 공유하면 최대값을 갖는다. 고차원 공간에서 직접 계산하기 어려운 점을 보완하기 위해, 최근 연구들은 GAN‑유사 구조에서 판별기를 이용해 MI의 하한을 암묵적으로 최적화한다는 사실을 밝혀냈다. ### 2. 모델 구조 제안된 시스템은 크게 두 부분으로 구성된다. - **인코더 \(f_{\Theta}\)** : 원시 파형을 입력으로 받아 200 ms 청크를 80개의 sinc‑필터(길이 251 샘플)와 두 개의 일반 컨볼루션 레이어, 두 개의 전결합 레이어(2048, 1024 뉴런)로 처리한다. 레이어 정규화와 배치 정규화를 적용해 학습 안정성을 높였다. 최종적으로 M‑차원 임베딩 \(z\)를 출력한다. - **판별기 \(g_{\Phi}\)** : 두 임베딩을 입력받아 실수 스칼라를 출력한다. 이 스칼라는 해당 쌍이 joint 분포(같은 문장 내 청크)인지, marginal product 분포(다른 문장 청크)인지를 구분하는 역할을 한다. 학습 과정은 다음과 같다. 동일 문장에서 무작위로 두 청크 \(c_1, c_2\)를 추출해 양성 샘플 \((z_1, z_2)\)을 만든다. 다른 문장에서 청크 \(c_{rnd}\)를 추출해 음성 샘플 \((z_1, z_{rnd})\)을 만든다. 판별기는 이 두 종류의 샘플을 구분하도록 학습되며, 인코더는 판별기의 피드백을 받아 양성 샘플 간의 MI를 최대화하도록 조정된다. 이는 전통적인 GAN의 ‘min‑max’ 게임이 아니라 ‘max‑max’ 게임으로, 학습 진행 상황을 손실값 자체로 쉽게 모니터링할 수 있다. ### 3. 손실 함수 비교 세 가지 손실 함수를 실험적으로 비교하였다. 1. **Binary Cross‑Entropy (BCE)** : 양성 샘플에 대해 \(\log g\)를, 음성 샘플에 대해 \(\log(1-g)\)를 적용한다. Jensen‑Shannon divergence를 추정하며, 값이 0에 수렴하므로 학습이 안정적이다. 2. **MINE** : Donsker‑Varadhan 표현을 이용해 MI 하한을 직접 최적화한다. \(\mathbb{E}_{p}

상호정보 기반 화자 표현 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기