고품질 음성 합성을 위한 순간 주파수·비주기성 기반 F0 추정 프레임워크

본 논문은 순간 주파수와 비주기성 측정을 결합한 3단계 프레임워크(YANGSAF)를 제안한다. 전처리 파형을 복소수 웨이브렛 필터 뱅크로 분석해 각 채널에서 순간 주파수, 비주기성, 그리고 F0 존재 확률을 추출하고, 이를 기반으로 초기 F0 궤적을 추적한다. 마지막 단계에서는 조화 성분별 비주기성 정보와 시간 왜곡을 이용해 F0와 비주기성을 정밀하게 재정제한다. 인공 테스트 신호와 실제 음성 실험에서 기존 YIN·SWIPE′·NDF·DIO 대…

저자: Hideki Kawahara, Yannis Agiomyrgiannakis, Heiga Zen

고품질 음성 합성을 위한 순간 주파수·비주기성 기반 F0 추정 프레임워크
본 논문은 고품질 음성 합성 및 변형에 필수적인 기본 주파수(F0)와 비주기성(aperiodicity) 추정 문제를 해결하기 위해 **YANGSAF(Yet ANother Glottal Source Analysis Framework)** 라는 3단계 프레임워크를 제안한다. 기존의 F0 추정기(YIN, SWIPE′, NDF, DIO 등)는 장시간 평균화된 스펙트럼이나 에너지 기반 피치 후보 선택에 의존해, 급격한 F0 변동이나 비주기성 성분이 포함된 구간에서 추적 오류가 빈번했다. 이러한 한계를 극복하고자 저자들은 **순간 주파수**와 **비주기성**을 동시에 측정하는 복합 분석기를 설계하였다. ### 1. 프레임워크 개요 YANGSAF는 **추정 → 트래킹 → 재정제**의 3단계로 구성된다. 1) **추정 단계**에서는 입력 신호를 복소수 웨이브렛 형태의 대역통과 FIR 필터 뱅크(400 Hz–1000 Hz, 12채널)로 분할한다. 각 채널에 대해 - **순간 주파수**: Flanagan 식을 이용해 복소수 신호와 그 미분으로부터 위상 미분을 계산한다. - **비주기성**: 두 번 필터링·정규화 과정을 통해 기본 사인파가 아닌 잔여 에너지 비율을 측정한다. 이는 느린 FM·AM에 둔감하면서도 SNR과 높은 상관을 보인다. - **F0 존재 확률**: 채널별 에너지와 비주기성 정보를 결합해 해당 채널이 현재 프레임에서 F0 성분을 얼마나 잘 담고 있는지를 확률값으로 출력한다. 2) **트래킹 단계**에서는 확률 맵과 신호 파워 정보를 이용해 전역적인 F0 후보를 생성하고, 동적 프로그래밍 혹은 Viterbi‑like 알고리즘을 통해 가장 일관된 궤적을 선택한다. 비주기성 맵은 가중치로 작용해 잡음이 많은 대역을 억제한다. 3) **재정제 단계**는 초기 F0 궤적을 기반으로 각 조화 성분별 비주기성 값을 재계산하고, **시간 왜곡(adaptive time warping)** 기법을 적용해 미세한 주파수 편차를 보정한다. 이 단계는 특히 고주파 조화 성분에서 발생하는 작은 오류를 정밀하게 교정한다. ### 2. 핵심 기술 상세 - **Flanagan 식 기반 순간 주파수**: 복소수 신호 x(t)=r(t)e^{jθ(t)}의 로그 미분을 이용해 ω_i(t)=dθ/dt를 계산한다. 이는 신호의 순간 위상 변화를 직접 추정하므로, 전통적인 FFT 기반 피치 후보보다 시간 해상도가 뛰어나다. - **비주기성 측정**: 기본 사인파를 통과시킨 후 두 번 필터링·정규화한 신호 y'_1, y'_2의 차이(r) 를 통해 잔여 에너지 k 를 구한다. k는 신호가 순수한 주기성을 벗어난 정도를 나타내며, 정규화 과정 덕분에 절대적인 에너지 스케일에 독립적이다. - **확률 맵**: 각 채널의 비주기성 및 파워를 결합해 “이 채널이 현재 F0를 포함하고 있는가?”를 확률값으로 표현한다. 이는 트래킹 단계에서 후보 선택을 가중치로 활용한다. ### 3. 실험 및 평가 #### 3.1 인공 테스트 신호 L‑F 모델을 이용해 만든 인공 신호에 16 Hz 진동(vibrato)과 다양한 FM·AM 변조를 적용하였다. 기존 YIN·SWIPE′·NDF·DIO는 궤적이 크게 왜곡되거나 진폭이 감소했지만, YANGSAF는 거의 원본 궤적을 정확히 복원하였다. RMS F0 오차는 기존 방법 대비 **10배** 감소하였다. #### 3.2 실제 음성 데이터 일본어 모음 /aiueo/ 를 포함한 고품질 녹음에서, 순간 주파수·비주기성·확률 맵을 시각화한 결과, 비주기성 맵이 포먼트와 일치하는 주기적 구조를 정확히 포착했으며, 확률 맵의 수직선이 성대 진동 주기와 일치함을 확인하였다. #### 3.3 비주기성–SNR 상관 비주기성 측정값은 실제 신호‑대‑잡음비(SNR)와 거의 1:1 상관을 보였으며, 이는 비주기성 지표가 신호 품질을 정량화하는 유용한 메트릭임을 입증한다. ### 4. 장점 및 한계 - **정확도**: 급변하는 F0와 잡음이 섞인 구간에서도 높은 추정 정확도 제공. - **모듈러 설계**: 순간 주파수 추정에 다른 알고리즘을 손쉽게 교체 가능. - **비주기성 제공**: F0와 함께 비주기성 값을 제공함으로써 합성 시 excitation source를 더 정밀하게 재현 가능. - **연산 비용**: 현재 구현은 정확도 중심이며, 실시간 처리를 위한 최적화가 필요함. - **비주기성 정의 한계**: 복합적인 비선형 왜곡에 대해서는 추가 보정이 필요할 수 있음. ### 5. 결론 YANGSAF는 순간 주파수와 비주기성을 동시에 추정함으로써, 기존 F0 추정기의 한계를 뛰어넘는 **고정밀, 고신뢰도**의 F0 및 비주기성 추정기를 제공한다. 이는 고품질 음성 합성, 음성 변조, 그리고 음성 분석 연구 전반에 걸쳐 큰 파급 효과를 기대한다. 향후 실시간 구현 및 비주기성 기반 음성 품질 평가 모델과의 연계 연구가 진행될 예정이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기