비병렬 음성 변환을 위한 향상된 CycleGAN‑VC2

CycleGAN‑VC2는 기존 CycleGAN‑VC의 한계를 극복하기 위해 두 단계 적대 손실, 2‑1‑2D 합성곱 생성기, PatchGAN 판별기를 도입한 비병렬 음성 변환 모델이다. 전역 구조를 평가하는 Mel‑cepstral distortion(MCD)과 지역 구조를 평가하는 modulation spectra distance(MSD)에서 모두 기존 방법보다 우수한 성능을 보였으며, 주관적 청취 실험에서도 자연스러움과 화자 유사도에서 전반적…

저자: Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka

비병렬 음성 변환을 위한 향상된 CycleGAN‑VC2
**1. 서론 및 배경** 음성 변환(VC)은 화자의 비언어적 특성(음성, 억양 등)을 다른 화자의 특성으로 바꾸면서 언어 내용은 유지하는 기술이다. 기존 VC 방법은 대부분 병렬 데이터(동일 문장을 두 화자가 말한 녹음)를 전제로 하며, 데이터 수집과 정렬 과정에서 큰 비용이 발생한다. 비병렬 VC는 이러한 제약을 없애지만, 학습 조건이 열악해 품질이 낮은 것이 일반적이다. 최근 GAN 기반 접근법이 비병렬 VC에 도입되었으며, 특히 CycleGAN‑VC는 1‑D CNN 기반 생성기와 FullGAN 판별기를 사용해 순환 일관성, 정체성 손실을 결합함으로써 병렬 VC 수준에 근접한 성능을 보였다. 그러나 여전히 변환된 음성과 실제 목표 음성 사이에 큰 격차가 존재한다. **2. 기존 CycleGAN‑VC 구조** - **목표 함수**: 한 번의 적대 손실(L_adv) + 사이클 일관성 손실(L_cyc) + 정체성 손실(L_id). - **생성기**: 1‑D CNN 기반 다운‑샘플링, Residual Block, 업‑샘플링을 사용해 시간 축 전체를 처리한다. - **판별기**: 2‑D CNN + 전결합층(FullGAN)으로 전체 스펙트럼 텍스처를 평가한다. **3. 제안된 CycleGAN‑VC2** 3.1 **두 단계 적대 손실** - 기존의 한 번의 적대 손실만으로는 사이클 변환 후 발생하는 스무딩을 억제하기 어렵다. - 원본 데이터와 사이클 변환 후 재구성된 데이터를 각각 별도의 판별기(D₀X, D₀Y)로 평가해 두 번의 적대 학습을 수행한다. - 이를 통해 G_X→Y와 G_Y→X가 각각 더 현실적인 특성을 생성하도록 유도한다. 3.2 **2‑1‑2D CNN 생성기** - 다운‑샘플링/업‑샘플링 단계에 2‑D 합성곱을 적용해 시간‑주파수 구조를 보존한다. - 핵심 변환 단계는 1‑D 합성곱 Residual Block으로 구현해 긴 시간 의존성을 효율적으로 학습한다. - 1×1 합성곱과 reshape 연산을 통해 채널 차원을 조정하고 2‑D ↔ 1‑D 변환을 매끄럽게 수행한다. 3.3 **PatchGAN 판별기** - FullGAN은 전체 입력을 한 번에 판단하므로 파라미터가 많이 필요하고 학습이 불안정할 수 있다. - PatchGAN은 작은 패치 단위로 진위 여부를 판단해 지역적인 디테일을 더 민감하게 학습한다. - 이는 특히 음성의 미세한 변동(예: 포먼트, 스펙트럼 턴오버)을 보존하는 데 유리하다. **4. 실험 설정** - **데이터**: VCC 2018 Spoke 비병렬 변환 과제, 4명(남·여 각각) 화자 조합(SF, SM → TF, TM) 사용. 각 화자당 훈련 81문장, 평가 35문장. - **전처리**: WORLD 분석기로 34차 멜 켑스트럼, 로그 F0, AP 추출, 5 ms 간격. - **변환 대상**: 멜 켑스트럼(34+1 차원)만 변환하고, F0는 로그 가우시안 정규화, AP는 그대로 사용. - **학습**: LSGAN, Adam(β₁=0.5), 배치 1, 2×10⁵ 이터레이션, 학습률 G=2e‑4, D=1e‑4, λ_cyc=10, λ_id=5(초기 1e⁴ 이터레이션만 사용). - **평가 지표**: 전역 구조 MCD(dB), 지역 구조 MSD(dB), 주관적 청취 실험(자연스러움, 화자 유사도). **5. 결과 및 분석** - **객관적**: 2‑Step 2‑1‑2D Patch 모델이 MCD 평균 6.83 dB(기존 7.37 dB)와 MSD 평균 1.49 dB(기존 2.42 dB)로 가장 우수했다. 특히 inter‑gender 변환에서 큰 개선이 관찰되었다. - **주관적**: 모든 화자 쌍에서 자연스러움과 유사도 점수가 유의하게 상승했으며, 특히 여성→남성, 남성→여성 변환에서 기존 CycleGAN‑VC 대비 평균 0.3~0.5점 상승했다. - **기술적 인사이트**: 두 단계 적대 손실이 사이클 일관성에 의한 스무딩을 효과적으로 억제했으며, 2‑1‑2D 구조가 시간‑주파수 정보를 균형 있게 보존함을 확인했다. PatchGAN은 파라미터 효율성을 유지하면서도 지역 디테일을 강화했다. **6. 결론 및 향후 과제** CycleGAN‑VC2는 비병렬 VC에서 기존 한계였던 품질 격차를 크게 줄였으며, 구조적 개선이 변환 품질에 직접적인 영향을 미친다는 점을 실증했다. 향후 연구에서는 더 강력한 후처리(post‑filter)와 고품질 신경망 기반 보코더(WaveNet, HiFi‑GAN)를 결합해 최종 음성 품질을 더욱 향상시키는 방향이 제시된다. 또한, 제안된 2‑1‑2D 및 PatchGAN 설계는 감정 변환, 억양 조절 등 다른 음성 변환 응용에도 확장 가능성이 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기