비병렬 음성 변환을 위한 고품질 CycleGAN 접근법
본 논문은 비병렬 데이터만을 이용해 화자 변환을 수행하는 CycleGAN 기반 모델을 제안한다. 멜‑cepstrum의 저차 성분을 CycleGAN으로 매핑하고, 고차 성분은 그대로 복사하는 방식으로 학습 효율을 높였다. 일본어 ALAGIN 데이터베이스를 활용한 남·여 화자 간 변환 실험에서, 기존의 병렬 기반 Merlin 시스템 및 GAN‑MSE 기반 병렬 모델보다 주관적 음질 및 화자 유사도 평가에서 유의미하게 우수한 결과를 얻었다.
저자: Fuming Fang, Junichi Yamagishi, Isao Echizen
본 논문은 비병렬 음성 변환(Voice Conversion, VC) 분야에서 기존 병렬 방식이 갖는 데이터 정렬·동일 텍스트 발화 요구를 탈피하고, 보다 실용적인 비병렬 학습을 가능하게 하는 새로운 접근법을 제시한다. 핵심 아이디어는 이미지‑to‑image 번역에 성공한 Cycle‑Consistent Generative Adversarial Network(CycleGAN)를 음성 특징 변환에 적용하는 것이다. CycleGAN은 두 개의 생성기(G, F)와 두 개의 판별기(D_X, D_Y)로 구성되며, **adversarial loss**를 통해 변환된 음성 특징이 목표 화자 분포와 구분되지 않도록 학습하고, **cycle‑consistency loss**를 통해 원본 입력이 두 번의 변환(예: X→Y→X) 후에도 원래 형태를 유지하도록 제약한다. 이러한 구조는 비병렬 데이터만으로도 두 화자 간의 통계적 관계를 학습할 수 있게 한다.
음성 특징으로는 WORLD와 SPTK 툴킷을 이용해 추출한 멜‑cepstrum(49 차원), 기본 주파수(F0), 무주기성(aperiodicity) 밴드를 사용한다. 멜‑cepstrum은 저차(첫 25 차원)와 고차(마지막 24 차원)로 나누어 처리한다. 저차 성분은 화자 특성과 언어 정보를 모두 포함하므로 CycleGAN의 변환 대상이 되고, 고차 성분은 화자 정보가 거의 없다고 가정해 그대로 복사한다. F0는 로그 스케일에서 소스와 타깃의 평균·표준편차를 맞추는 선형 변환으로 처리하고, 무주기성은 변환 없이 그대로 사용한다. 이렇게 함으로써 변환에 필요한 파라미터 수를 최소화하고, 학습 안정성을 높였다.
네트워크 구조는 6층 피드포워드 신경망이며, 각 히든 레이어는 128, 256, 256, 128개의 뉴런을 가진다. 활성화 함수는 sigmoid를 사용하고, 학습률은 0.001(생성기)와 0.0001(판별기)로 설정하였다. CycleGAN 학습 시 λ=10을 적용해 cycle‑loss의 비중을 크게 두어 내용 보존을 강조하였다. 학습은 400 epoch, 배치 크기 128 프레임으로 진행되었으며, 최종 파라미터는 Maximum Likelihood Parameter Generation(MLPG)과 포스트‑필터링을 통해 부드러운 스펙트럼을 생성한다.
실험은 ALAGIN 일본어 음성 데이터베이스의 남·여 화자 각각 200 utterance(비병렬)와 200 utterance(병렬)로 구성된 학습 데이터를 사용하였다. 테스트는 각 화자당 50 utterance을 이용했으며, 비병렬 데이터는 서로 다른 인덱스(A‑D vs. E‑H)를 사용해 정렬 없이 학습하였다. 비교 대상은 (1) Merlin 기반 병렬 VC(VC Challenge 2016 기준 설정), (2) GAN 기반 병렬 VC(추가 MSE 손실 포함)이다. 평가 항목은 주관적 음성 품질(MOS)과 화자 유사도(ABX)이며, 95% 신뢰구간과 Holm‑Bonferroni 보정을 적용한 두‑표본 t‑검정으로 통계적 유의성을 검증하였다.
결과는 CycleGAN 기반 비병렬 VC가 두 병렬 기준보다 모두 높은 MOS와 화자 유사도 점수를 기록했으며, 특히 화자 유사도에서 가장 큰 차이를 보였다. 이는 비병렬 데이터만으로도 충분히 강력한 변환 모델을 학습할 수 있음을 실증한다. 또한, 고차 멜‑cepstrum을 복사하고 F0를 단순 정규화하는 간단한 전처리에도 불구하고, 전체 변환 품질이 기존 복잡한 병렬 모델을 능가함을 보여준다.
논문의 한계로는 (1) F0 변환이 단순 평균·표준편차 정규화에 머물러 억양·감정 표현에 제한이 있을 수 있다, (2) 고차 멜‑cepstrum을 복사함으로써 미세한 화자 특성을 놓칠 가능성이 있다, (3) 실험이 일본어 단일 도메인에 국한돼 다른 언어·다중 화자 상황에서의 일반화 검증이 부족하다. 향후 연구 방향은 (a) 다중 화자·다중 언어 데이터셋을 활용한 일반화 테스트, (b) 변분 오토인코더와 결합해 내용 보존을 보다 정교하게 모델링, (c) F0와 무주기성까지 포함한 end‑to‑end 학습 구조 도입, (d) 실시간 변환을 위한 경량화 모델 설계 등이 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기