스피치 체인에 원샷 화자 적응을 결합한 다중화자 학습 모델

본 논문은 기존 스피치 체인 모델에 화자 인식 모듈을 삽입하고, DeepSpeaker 기반 원샷 화자 적응을 적용한 TTS를 제안한다. 라벨이 있는 데이터와 라벨이 없는 데이터(음성·텍스트)를 동시에 활용해 ASR과 TTS를 상호 학습시키는 반지도학습 프레임워크를 구축했으며, WSJ 데이터셋 실험에서 인식 오류율(CER)을 크게 낮추었다.

저자: Andros Tj, ra, Sakriani Sakti

스피치 체인에 원샷 화자 적응을 결합한 다중화자 학습 모델
본 논문은 인간의 말하기-듣기 피드백 메커니즘을 모방한 ‘스피치 체인’ 모델을 심층 학습 기반으로 구현하고, 기존 모델이 단일 화자 데이터에서는 좋은 성능을 보였지만 다중 화자 및 미지의 화자에 대해서는 한계가 있음을 지적한다. 이를 해결하기 위해 두 가지 주요 확장을 제안한다. 첫째, 화자 인식(스피커 레코그니션, SPKREC) 모듈을 체인에 삽입해 각 음성 입력으로부터 화자 임베딩 벡터 z를 추출한다. 이 벡터는 화자 고유의 음성 특성을 압축한 연속 표현으로, DeepSpeaker 네트워크를 사용해 학습한다. 둘째, Tacotron 기반의 텍스트‑투‑스피치(TTS) 모델에 화자 임베딩을 조건으로 결합함으로써 ‘원샷 화자 적응(one‑shot speaker adaptation)’을 구현한다. 즉, 새로운 화자의 음성 샘플 하나만으로 해당 화자의 임베딩을 얻고, 이를 TTS 디코더에 입력하면 해당 화자 스타일의 음성을 합성할 수 있다. 스피치 체인 전체 흐름은 세 가지 학습 시나리오로 구성된다. (1) 라벨이 있는 음성‑텍스트 쌍(DP)에서는 기존과 같이 ASR과 TTS를 각각 교사 강제(teacher‑forcing) 방식으로 학습하고, 동시에 SPKREC를 통해 화자 벡터를 얻어 TTS에 전달한다. (2) 라벨이 없는 음성만 있는 데이터(DU)에서는 ASR이 텍스트를 예측하고, SPKREC가 화자 벡터를 추출한다. 그 후 TTS가 예측 텍스트와 화자 벡터를 이용해 음성을 재구성하고, 재구성된 음성과 원본 음성 사이의 L2 손실을 계산한다. (3) 라벨이 없는 텍스트만 있는 경우, 사전에 확보한 임의의 음성 샘플을 사용해 화자 벡터를 얻고, 이를 TTS에 넣어 음성을 만든 뒤 ASR이 다시 텍스트를 복원한다. 이렇게 생성된 텍스트와 원본 텍스트 사이의 손실을 역전파한다. 전체 손실은 지도 학습 손실(L_P_ASR, L_P_TTS)과 비지도 학습 손실(L_U_ASR, L_U_TTS)을 가중치 α, β로 조합한다. 구체적인 모델 구조는 다음과 같다. ASR은 3개의 Bi‑LSTM 인코더(각 256 유닛)와 계층적 서브샘플링을 적용해 시퀀스 길이를 1/8로 축소한다. 디코더는 1개의 LSTM(512 유닛)와 콘텐츠 기반 어텐션을 사용해 문자 시퀀스를 생성한다. TTS는 Tacotron의 CBHG 인코더와 2개의 LSTM 디코더를 유지하되, 입력 문자 임베딩을 두 개의 FC 레이어와 LReLU로 변환하고, 화자 임베딩 z를 선형 변환 후 디코더 상태와 합산한다. 디코더는 멜 스펙트로그램을 출력하고, 이를 CBHG를 통해 선형 스펙트로그램으로 변환한다. 종료 프레임을 예측하기 위한 별도 이진 분류 헤드도 포함한다. 손실 함수는 (i) 멜·선형 스펙트로그램 L2 손실, (ii) 종료 프레임 바이너리 교차 엔트로피, (iii) 화자 임베딩 코사인 거리 손실을 가중합한 형태이다. 실험은 WSJ CSR 코퍼스를 사용하였다. SI84(83 화자, 16시간)와 SI200(200 화자, 66시간)을 각각 라벨이 있는/없는 데이터로 나누어, 라벨이 있는 데이터만으로 감독 학습했을 때 문자 오류율(CER)이 17.01%였으며, 전체 데이터(라벨+비라벨)를 활용한 반지도 학습에서는 기존 라벨 전파 방식(14.58%)보다 크게 개선된 9.86%를 달성했다. 이는 화자 임베딩을 통한 정보 손실 감소와 원샷 적응이 TTS와 ASR 모두에 긍정적인 영향을 미쳤음을 보여준다. 또한, 원샷 화자 적응을 적용한 TTS는 미지의 화자에 대해서도 자연스러운 음성 합성을 수행했으며, 화자 인식 모듈은 WSJ 외의 화자에도 일반화 가능함을 확인했다. 결론적으로, 본 연구는 (1) 화자 인식 모듈을 스피치 체인에 통합해 화자 특성을 명시적으로 전달, (2) 원샷 화자 적응을 통한 다중화자 TTS 구현, (3) 라벨이 없는 음성·텍스트 데이터를 효과적으로 활용하는 반지도 학습 프레임워크를 제시함으로써, 실제 서비스 환경에서 새로운 화자를 빠르게 지원하고 라벨링 비용을 크게 절감할 수 있는 가능성을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기