MeanVoiceFlow: 평균 흐름 기반 원스텝 비병렬 음성 변환

MeanVoiceFlow는 음성 변환(VC) 분야에서 최근 각광받고 있는 확산 모델과 플로우 매칭 모델의 장점을 살리면서, 그 단점인 느린 추론 속도를 근본적으로 해결하고자 제안된 새로운 프레임워크이다. 기존 확산 기반 VC는 다수의 디노이징 스텝을 필요로 하여 실시간 응용에 부적합했고, 플로우 매칭 모델 역시 순간 속도(instantaneous velocity)를 이용해 ODE를 수치적으로 적분하므로 스텝 수가 적을 때 큰 오류가 발생한다. MeanVoiceFlow는 **평균 흐름(mean flow)** 개념을 도입한다. 평균 흐름은 두 시점 r과 t 사이의 평균 속도 u(zₜ, r, t) = (1/(t‑r))∫₍ᵣ₎ᵗ v(z_τ, τ)dτ 로 정의되며, 이는 실제 변위와 동일하다. 따라서 시간 적분을 별도의 수치적 근사 없이 **(t‑r)·u** 라는 단일 곱셈으로 대체할 수 있다. 이 특성은 1‑step 추론을 가능하게 하며, 기존 플로우 매칭이 겪던 “스텝 감소에 따른 성능 급락” 문제를 회피한다. 평균 흐름을 학습하기 위해서는 목표 평균 속도 u_tgt = v_t – (t‑r)(v_t∂_z u + ∂_t u) 를 계산해야 하는데, 여기서 ∂_z u와 ∂_t u는 현재 네트워크 파라미터에 대한 미분이다. 학습 초기에 이 미분값이 부정확하면 손실이 불안정해질 위험이 있다. 이를 해결하기 위해 두 가지 보조 기법을 제안한다. 1. **구조적 마진 재구성 손실(Structural Margin Reconstruction Loss)** - 평균 흐름의 중심점, 즉 순수 가우시안 노이즈가 0인 경우(z₁=0)만을 대상으로 한다. - 출력 z₀와 원본 스펙트로그램 x 사이의 차이를 직접적인 L2 손실이 아니라 SSIM 기반 손실로 측정한다. SSIM은 구조적 유사성을 강조해 과도한 평활화(통계적 평균)를 방지한다. - 마진 m을 도입해 SSIM이 일정 수준 이상(고품질)인 경우 손실을 무시한다. 이는 모델이 평균 흐름 손실(L_MF)만으로 충분히 학습될 때 불필요한 제약을 없애준다. - 최종 손실은 L_MVF = L_MF + λ·L_zerorec 형태이며, λ는 1로 설정했다. 2. **조건부 확산 입력 학습(Conditional Diffused‑Input Training)** - 기존 확산 기반 VC는 학습 시 순수 노이즈(ε)만 사용하고, 추론 시 소스 스펙트로그램과 노이즈를 혼합한 ε_src^t′를 입력한다. 이로 인해 학습‑추론 불일치가 발생한다. - 본 논문은 학습 단계에서도 ε_src^t′를 사용하도록 설계했다. 소스와 타깃 스피커가 다른 경우를 시뮬레이션하기 위해 배치 내에서 스피커 임베딩을 섞어 만든 s_src를 사용한다. - ε_src^t′는 모델 자체를 이용해 생성한다. 구체적으로, z₁=ε~N(0,1)에서 시작해 평균 흐름 u_θ를 이용해 ˆε_src^t′ = sg(z₁ – (1‑t′)·u_θ(z₁, t′, 1, s_src, c_tgt)) 로 만든다. 여기서 sg는 stop‑gradient이다. - 학습 배치의 절반은 여전히 순수 노이즈를 사용해 두 종류 입력 모두에 대한 강건성을 확보한다. **모델 아키텍처**는 기존 FastVoiceGrad

MeanVoiceFlow: 평균 흐름 기반 원스텝 비병렬 음성 변환

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기