노이즈 환경에서 조화 성분 강조를 통한 음성 명료도 향상 방법
본 논문은 Gammachirp 필터와 FSFFE 기반 피치 분류를 결합한 HDAG(Harmonic Detection for Auditory Gain) 기법을 제안한다. HHT‑Amp로 기본 주파수(F0)를 추정하고, 저·고 피치 프레임을 구분해 오류를 보정한 뒤, 3옥타브 서브밴드에 맞춘 선택적 Gammachirp 필터뱅크로 조화 성분을 강조한다. 각 필터 출력에 FSFFE‑기반 가중 이득을 적용해 재구성함으로써 ESTOI, ASII‑ST, P…
저자: A. Queiroz, R. Coelho
본 논문은 소음이 섞인 음성 신호의 명료도(intelligibility)를 향상시키기 위해 ‘Harmonic Detection for Auditory Gain(HDAG)’라는 새로운 프레임워크를 제안한다. 기존 연구들은 주로 잡음 감소에 초점을 맞추었지만, 잡음 감소가 반드시 명료도 향상으로 이어지지는 않는다. HDAG는 조화 성분, 특히 기본 주파수(F0)와 그 정수 배들을 강조함으로써 청취자가 음성을 더 쉽게 인식하도록 설계되었다.
HDAG는 크게 네 단계로 구성된다.
1) **F0 추정** – HHT‑Amp(Ensemble Empirical Mode Decomposition 기반) 알고리즘을 사용한다. 입력 신호를 IMF와 잔차로 분해하고, 각 IMF에 힐버트 변환을 적용해 순간 진폭을 얻는다. 자동상관함수를 통해 피크를 탐색하고, 후보 피치 중 가장 신뢰도가 높은 값을 선택한다. 이 방식은 기존 피치 추정기보다 잡음에 강인한 특성을 보인다.
2) **조화 검출 및 보정** – FSFFE(Frequency Separation for Fundamental Frequency Estimation) 기법을 적용해 추정된 F0를 저·고 피치 프레임으로 구분한다. 첫 4개의 IMF만 사용해 저주파 잡음 마스킹을 최소화하고, IMF 간 정규화 거리 행렬을 계산해 변동성이 가장 작은 두 IMF를 선택한다. 평균 F0가 200 Hz 이하이면 저피치, 그 이상이면 고피치로 판단한다. 저피치 프레임에서는 F0를 0.5배로 축소하고, 고피치 프레임에서는 0.25~0.5배 범위의 보정식을 적용한다. 이 과정은 특히 고주파 영역에서 중요한 조화 성분이 손실되는 것을 방지한다.
3) **3옥타브 밴드 구성** – 인간 청각의 대역폭 특성을 반영해 3옥타브 서브밴드 필터뱅크를 설계한다. 중심 주파수는 f_adj,q·2^{k/3} (k=0,…,L‑1) 로 정의되며, 각 대역에 Gammachirp 필터를 배치한다. Gammachirp는 비대칭 계수 c를 통해 위상과 대역폭을 조절할 수 있다. 실험에서는 c = ‑1이 가장 높은 ESTOI 점수를 제공했으며, 이는 비대칭 필터가 잡음에 의해 이동된 조화 성분을 효과적으로 복원함을 의미한다.
4) **이득 적용 및 재구성** – 각 Gammachirp 필터 출력 y_k,q(t)에 FSFFE‑기반 이득 G_k≥1을 곱해 조화 성분을 강조한다. 이득은 저·고 피치 구분 결과에 따라 다르게 설정되며, 이후 잔차 신호와 합산해 overlap‑add 방식으로 최종 음성을 재구성한다. 재구성 과정에서는 Hann 윈도우를 적용해 프레임 간 연속성을 보장한다.
실험 설정은 다음과 같다. TIMIT 데이터베이스의 48개 문장을 선택해 6가지 실제 잡음(바블, 백색, 차량 등)과 4가지 SNR(‑10, ‑5, 0, 5 dB) 조합으로 합성하였다. 비교 대상은 기존 SSFV, PACO, GTF‑F0 세 가지 방법이다. 평가 지표는 ESTOI(Extended Short‑Time Objective Intelligibility), ASII‑ST(Short‑Time Approximate Speech Intelligibility Index), PESQ(Perceptual Evaluation of Speech Quality)이며, 추가로 청취자 20명을 대상으로 주관 청취 테스트를 수행하였다.
결과는 다음과 같다. ESTOI 점수는 모든 잡음·SNR 조합에서 HDAG가 평균 1.8 %p(절대) 높은 값을 기록했으며, 특히 ‑10 dB와 ‑5 dB 구간에서 가장 큰 차이를 보였다. ASII‑ST 역시 0.12~0.25 dB 향상되었고, PESQ는 0.15~0.30 dB 상승하였다. 주관 청취 테스트에서도 평균 점수가 0.4~0.7점(5점 척도) 높게 나타났다. 특히 저 SNR 상황에서 청취자들이 “소리가 더 명확하게 들렸다”는 의견이 다수였으며, 이는 조화 성분 강조가 실제 인지적 이득을 제공함을 뒷받침한다.
논문의 주요 기여는 세 가지로 요약할 수 있다. 첫째, HHT‑Amp와 FSFFE를 결합해 잡음 환경에서도 안정적인 F0 추정 및 오류 보정 메커니즘을 제공한다. 둘째, 인간 청각 특성을 반영한 3옥타브 기반 Gammachirp 필터뱅크 설계와 비대칭 계수 최적화를 통해 조화 성분을 효과적으로 추출한다. 셋째, 피치 구분 결과에 따라 동적으로 조정되는 이득 적용으로 조화 성분을 선택적으로 강화함으로써 명료도와 품질을 동시에 향상시킨다.
한계점으로는 현재 프레임 길이(32 ms)와 필터 수(L)가 고정되어 있어 실시간 구현 시 연산량이 다소 높을 수 있다. 또한 다중 화자 상황이나 급격한 피치 변동이 있는 음성(예: 노래)에서는 FSFFE 기반 피치 분류가 오히려 오류를 유발할 가능성이 있다. 향후 연구에서는 적응형 프레임 길이와 필터 수를 동적으로 조절하는 메커니즘, 그리고 다중 화자 및 비정상 피치 패턴에 대한 확장성을 검증할 필요가 있다.
종합적으로, HDAG는 기존 잡음 감소 기반 방법과 차별화된 “조화 강조” 접근을 통해 다양한 실세계 소음 환경에서 음성 명료도를 현저히 개선할 수 있음을 입증하였다. 이는 보청기, 무선 통신, 로봇 청취 시스템 등 실시간 음성 처리 응용 분야에 바로 적용 가능한 실용적 가치가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기