스펙트럼 성문 모델을 이용한 음성 소스 필터 분리

본 논문은 기존 IAIF 방식의 한계를 보완하기 위해 3차 성문 필터(글로털 폼런트와 스펙트럼 틸트)를 도입한 GFM‑IAIF를 제안한다. 실험 결과, GFM‑IAIF는 성문 파라미터 추정 정확도와 음성 노력(soft‑medium‑loud) 구분 능력에서 기존 IAIF 및 IOP‑IAIF보다 우수함을 확인하였다.

저자: Olivier Perrotin, Ian Vince McLoughlin

본 논문은 음성 신호를 소스‑필터 모델로 해석할 때, 성문(glottal) 필터의 정확한 추정이 음성 분석·파라미터화에 핵심적이라는 점을 출발점으로 한다. 기존 연구들은 주로 저주파 영역에 나타나는 글로털 폼런트(Glottal Formant)를 추정하고, 고주파 영역은 성도(Vocal Tract) 필터에 귀속시키는 경향이 있었다. 그러나 성문 진동의 폐쇄 단계에서 발생하는 고주파 스펙트럼 틸트(Spectral Tilt)는 음성 노력(vocal effort)·발성 강도와 밀접한 관계가 있으며, 이를 무시하면 음성 품질을 정확히 파악하기 어렵다. ### 1. 이론적 배경 음성은 일반적으로 S(ω)=E(ω)·G(ω)·V(ω)·L(ω) 로 표현된다. 여기서 E는 펄스·노이즈 기반의 기본 자극, G는 성문 필터, V는 성도 필터, L은 립 방사 필터이다. 성문 필터 G(ω)는 저주파의 글로털 폼런트와 고주파의 스펙트럼 틸트를 동시에 포함하는 3차 전이함수로 모델링될 수 있다. 수식 (1) G(z)=1/

스펙트럼 성문 모델을 이용한 음성 소스 필터 분리

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기