음성 변환 품질을 위한 스푸핑 방지 지표 활용

본 논문은 2018년 Voice Conversion Challenge(VCC’18) 참가 시스템들의 처리 아티팩트를 객관적으로 평가하기 위해 스푸핑 방지 카운터메저(CM)를 적용한다. CQCC 기반 GMM 검출기의 EER을 아티팩트 지표로 사용해 인간 청취자 평가와 비교했으며, 시스템을 품질에 따라 두 그룹으로 구분하고, 이상적인 50 % EER에 미치지 못함을 확인한다.

저자: Tomi Kinnunen, Jaime Lorenzo-Trueba, Junichi Yamagishi

음성 변환 품질을 위한 스푸핑 방지 지표 활용
본 논문은 2018년 Voice Conversion Challenge(VCC’18)에서 제출된 23개의 VC 시스템을 대상으로, 기존에 자동화된 스푸핑 방지(countermeasure, CM) 기술을 활용해 음성 변환 과정에서 발생하는 처리 아티팩트를 객관적으로 정량화하고자 한다. VC는 화자 특성을 변환하면서 내용은 유지하는 기술로, 최근 딥러닝 기반 모델이 급격히 발전했지만, 훈련 데이터 부족·모델링 한계 등으로 인해 완전한 자연스러운 변환은 아직 어려운 상황이다. 따라서 현재 VC 성능 평가는 인간 청취자를 통한 MOS(Mean Opinion Score)와 유사도 평가에 크게 의존하고 있다. 이러한 주관적 평가는 비용·시간이 많이 들고, 실험 재현성이 낮아 빠른 프로토타이핑에 장애가 된다. 스푸핑 방지 연구는 ASV(Automatic Speaker Verification) 시스템을 속이는 가짜 음성을 탐지하는 데 초점을 맞추어 왔다. 스푸핑 검출기는 ‘진짜 인간 음성(보나 피데)’과 ‘가짜(스푸프)’를 구분하는 이진 가설 검정 문제로 모델링되며, 일반적으로 두 클래스에 대해 각각 GMM, i‑Vector, 혹은 심층 신경망을 학습시킨다. 검출기의 성능은 보통 EER(Equal Error Rate)로 보고되며, 50 %는 무작위 추측 수준을 의미한다. 논문은 이 EER을 ‘아티팩트 지표’로 재해석한다. 즉, 특정 VC 시스템이 생성한 음성을 스푸핑 검출기가 인간 음성으로 오인할 확률이 높을수록(즉, EER이 높을수록) 해당 시스템이 아티팩트를 적게 포함한다는 가정이다. 구현에서는 최신 스푸핑 대회에서 가장 높은 성능을 보인 Constant‑Q Cepstral Coefficients(CQCC)를 특징으로 선택한다. CQCC는 로그‑스펙트럼을 일정한 Q 비율로 변환한 뒤, 역푸리에 변환을 통해 케프스트럼 계수를 추출하는 방식으로, 전통적인 MFCC보다 시간‑주파수 해상도가 뛰어나 스푸핑 탐지에 유리하다. 이 특징을 30차원으로 추출하고, 각 클래스(자연음성, 인공음성)에 대해 512개의 가우시안 컴포넌트를 갖는 대각 공분산 GMM을 학습한다. 학습 데이터는 VCC’18 베이스라인과 공개된 ASVspoof 2015 데이터에서 추출한 인공음성, 그리고 다양한 언어·채널 조건을 포함한 자연음성으로 구성한다. 검출기는 입력 음성에 대해 로그우도비(Likelihood Ratio)를 계산하고, 전체 시스템의 점수를 얻기 위해 모든 변환 음성에 대해 EER을 측정한다. 실험 결과는 두 가지 주요 클러스터를 드러낸다. 첫 번째 클러스터는 EER이 10 %~20 % 수준으로 낮아, 검출기가 해당 VC 샘플을 쉽게 구분한다. 이 그룹에 속한 시스템들은 MOS에서도 낮은 점수를 받으며, 청취자들이 명백히 인공적인 아티팩트를 감지한다. 두 번째 클러스터는 EER이 20 %~30 % 사이로, 검출기가 인간 음성과 구분하기 어려워한다. 이 시스템들은 MOS에서도 상대적으로 높은 점수를 받지만, 여전히 50 %라는 ‘완벽한’ 이상적인 EER에는 도달하지 못한다. 즉, 현재 최고 수준의 VC 시스템조차도 인간 청취자와 자동 탐지기 모두에게 완전한 자연성을 제공하지 못한다는 결론이다. 논문은 또한 CM 기반 평가가 기존 MOS와 높은 상관관계를 보이면서도, 자동화·재현성·신속성 측면에서 큰 장점을 제공한다는 점을 강조한다. 다만, CM 자체가 훈련·테스트 데이터 불일치, 잡음·채널 변동 등에 민감하므로, 평가의 공정성을 위해 데이터 선택과 파라미터 튜닝에 신중을 기해야 한다. 저자들은 향후 연구 방향으로 (1) 심층 신경망 기반 스푸핑 검출기의 도입, (2) 다양한 환경(노이즈, 압축, 다중 언어)에서의 교차 코퍼스 평가, (3) MOS와 EER을 결합한 복합 지표 설계, (4) VC 시스템 개발 단계에서 실시간 아티팩트 피드백을 제공하는 최적화 루프 구축 등을 제시한다. 결론적으로, 스푸핑 방지 기술을 VC 품질 평가에 적용함으로써, 주관적 청취 테스트를 보완하고, 빠른 프로토타이핑과 객관적 벤치마크 제공이 가능함을 입증하였다. 이는 VC 연구 커뮤니티가 보다 체계적이고 재현 가능한 평가 프레임워크를 구축하는 데 중요한 발판이 될 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기