외부 마이크를 이용한 확산 잡음 환경에서의 RTF 기반 양쪽 청취 MVDR 빔포머

본 논문은 외부 마이크를 추가로 배치해 확산 잡음 환경에서 상대 전달 함수(RTF) 벡터를 편향 없이 추정하는 방법을 제안한다. 잡음 성분 간 공간 상관성이 0이라고 가정하면 외부 마이크와 머리 부착 마이크 간의 교차 공분산만으로 RTF를 구할 수 있다. 실제 실험에서 제안된 SC 추정기가 기존의 편향 추정기와 공분산 백색화(CW) 추정기보다 잡음 감소와 양쪽 청취 단서 보존 측면에서 우수함을 확인하였다.

저자: N. G"o{ss}ling, S. Doclo

외부 마이크를 이용한 확산 잡음 환경에서의 RTF 기반 양쪽 청취 MVDR 빔포머
본 논문은 청각 보조기(보청기·코클레아 임플란트·hearable)에서 사용되는 양쪽 청취(binaural) 잡음 감소 알고리즘이 목표로 하는 두 가지 핵심 과제, 즉 잡음 억제와 청취자에게 공간 인식을 제공하는 binaural cue(ILD, ITD) 보존 문제를 다룬다. 이를 위해 널리 알려진 binaural MVDR(BMVDR) 빔포머를 기반으로, 원하는 음원에 대한 상대 전달 함수(RTF) 벡터를 정확히 추정하는 것이 필수적이다. 기존 RTF 추정 방법은 크게 세 가지로 나뉜다. 첫 번째는 마이크 신호 공분산 행렬 R_y만을 이용하는 편향 추정기(B)로, 잡음이 강한 상황에서 큰 편향을 보인다. 두 번째는 잡음 공분산 행렬 R_n을 별도로 추정하고, 이를 이용해 공분산을 백색화한 뒤 주성분을 추출하는 공분산 백색화(CW) 방식이다. CW는 이론적으로 편향이 없지만, R_n의 정확한 추정과 고비용의 행렬 제곱근·고유값 분해가 필요해 실시간 적용이 어려운 단점이 있다. 이에 저자들은 외부 마이크를 하나 추가하는 새로운 접근법을 제안한다. 외부 마이크는 머리 부착 마이크와 충분히 거리가 멀어 잡음 성분 간의 공간 상관성(MSC)이 거의 0이라고 가정한다. 이 가정 하에 외부 마이크와 각 머리 마이크 사이의 교차 공분산 ⟨y Y_E*⟩만을 이용해 RTF를 직접 계산하는 식(22)을 도출한다. 이 방법은 잡음 공분산 행렬을 별도로 추정할 필요가 없으며, 연산량이 크게 감소한다. 또한, 실제 실험에서는 외부 마이크가 잡음과 약한 상관성을 보였음에도 불구하고, 제안된 SC(Spatial Coherence) 추정기가 편향이 거의 없고, CW보다 높은 성능을 보였다. 실험은 University of Oldenburg의 실험실에서 수행되었다. KEMAR 헤드‑트orso 시뮬레이터에 양쪽 청취 보조기(M=2)와 외부 마이크를 배치하고, 남성 화자의 음성을 2 m 거리에서 35° 방향에 배치하였다. 배경 잡음은 4개의 스피커를 이용해 확산 잡음(다중 화자)으로 생성했으며, 방의 잔향 시간 T₆₀를 250 ms, 500 ms, 750 ms로 변화시켰다. 외부 마이크는 음원에서 0.5 m 떨어진 위치에 두어, 헤드와 약 1.5 m 거리를 유지하였다. 입력 SNR은 -5, 0, 5 dB로 설정했으며, 외부 마이크의 SNR은 약 9.6 dB가 더 높았다. 신호는 16 kHz 샘플링, 256점 STFT(16 ms)로 처리했으며, VAD를 이용해 잡음 전용 프레임과 음성+잡음 프레임을 구분하였다. 각 프레임에서 마이크 신호 공분산 R_y와 잡음 공분산 R_n을 지수 평균(α_y=0.852, α_n=0.984)으로 업데이트하였다. 이후 네 가지 RTF 추정기(B, CW, SC, SC_opt)를 적용해 BMVDR 필터(식 12)를 계산하고, 좌·우 청취 장치에 적용하였다. 성능 평가는 intelligibility‑weighted SNR improvement(ΔiSNR)와 binaural cue error(ΔILD, ΔITD)로 측정하였다. 결과는 다음과 같다. 편향 추정기 B는 모든 조건에서 가장 낮은 ΔiSNR과 높은 ILD/ITD 오류를 보이며, 특히 T₆₀가 커지고 SNR이 낮을수록 성능이 급격히 저하된다. CW는 B보다 개선되지만, T₆₀가 750 ms인 경우 여전히 큰 ILD 오류를 나타낸다. 반면 SC 추정기는 거의 모든 조건에서 CW보다 높은 ΔiSNR과 낮은 ILD/ITD 오류를 기록했으며, 특히 장시간 잔향(500 ms, 750 ms)에서 그 차이가 두드러졌다. 또한, 이상적인 외부 신호(깨끗한 음성)를 사용한 oracle SC_opt와 실제 외부 마이크를 사용한 SC 간 차이는 미미하여, 제안 방법이 실제 환경에서도 충분히 실용적임을 확인했다. 이 연구는 외부 마이크를 활용함으로써 RTF 추정의 편향을 제거하고 연산 복잡도를 크게 낮출 수 있음을 입증한다. 향후 연구에서는 외부 마이크의 최적 배치, 다중 외부 마이크 결합, 비확산 잡음(예: 차량 내부 소음) 및 동적 환경에서의 적응형 추정 등에 대한 확장이 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기