동시 잡음 제거와 잔향 억제를 위한 통합 컨볼루션 빔포머

본 논문은 가중치 예측 오차(WPE) 기반 잔향 제거와 최소 전력 왜곡 없는 응답(MPDR) 빔포머를 하나의 최적화 기준 아래 통합한 가중 전력 최소화 왜곡 없는 응답(WPD) 빔포머를 제안한다. 실험 결과, 제안 방법은 기존의 WPE‑MPDR 연쇄 방식보다 객관적인 음성 향상 지표와 자동 음성 인식(WER) 모두에서 유의미하게 우수함을 확인하였다.

저자: Tomohiro Nakatani, Keisuke Kinoshita

본 논문은 원거리 마이크 어레이를 이용한 음성 신호 처리에서 발생하는 두 가지 주요 왜곡, 즉 잡음과 잔향을 동시에 최소화하는 새로운 방법론을 제시한다. 기존 연구에서는 주로 WPE(Weighted Prediction Error) 기반의 잔향 제거와 MVDR 혹은 MPDR(Minimum Power Distortionless Response) 빔포머를 순차적으로 적용하는 방식이 널리 사용되어 왔다. 이러한 파이프라인 구조는 각각의 단계가 독립적으로 최적화되기 때문에 전체 시스템이 전역 최적성을 갖지 못한다는 한계가 있다. 특히, WPE 단계에서 잡음이 남아 있으면 잔향 억제가 비효율적이며, 이후 빔포밍 단계에서는 여전히 잔향이 남아 있어 잡음 감소 효과가 저하된다. 이에 저자들은 WPE와 MPDR을 하나의 컨볼루션 빔포머 형태로 통합하고, 이를 단일 최적화 기준 아래 설계한다. 구체적으로, 입력 신호 xₜ는 STFT 도메인에서 다음과 같이 모델링된다: xₜ = dₜ + rₜ + nₜ, 여기서 dₜ는 직접 신호와 초기 반사(원하는 신호), rₜ는 늦은 잔향, nₜ는 잡음이다. 기존 WPE는 dₜ를 예측 오차의 최소화 문제로 정의하고, MPDR은 wᴴv = 1 제약 하에 평균 전력을 최소화한다. 논문은 이 두 목적을 결합해 ‘가중 전력 최소화 왜곡 없는 응답(WPD)’이라는 새로운 목적 함수를 도입한다. WPD의 목적 함수는   J(w) = Σₜ |wᴴx̄ₜ|² / σ²ₜ  subject to wᴴv = 1 이다. 여기서 σ²ₜ는 시간‑가변적인 목표 신호 전력(예측된 스펙트럼 파워)이며, x̄ₜ는 현재 프레임과 과거 프레임을 포함하는 확장된 벡터(예:

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기