SVD PHAT 기반 초고속 음원 위치 추정

** 본 논문은 원거리 음성 처리에서 핵심적인 전처리 단계인 음원 방향 추정(DOA) 문제를 다루며, 기존의 SRP‑PHAT(Steered‑Response Power Phase Transform) 방식이 높은 정확도를 제공하지만 후보 위치 수 Q가 많아질수록 O(Q P N) 의 연산 복잡도로 실시간 적용에 한계가 있음을 지적한다. 이를 해결하기 위해 저자들은 SRP‑PHAT의 핵심 행렬 W (크기 Q × P(N/2+1))에 특이값 분해(SVD)를 적용하고, 주요 특이값 K 개만을 남겨 저차원 근사 W ≈ U S Vᴴ 를 만든다. 여기서 K 는 재구성 오차 δ 에 따라 자동으로 결정되며, Tr{S Sᵀ} ≥ (1 – δ) Tr{W Wᴴ} 조건을 만족하도록 설계된다. 관측 벡터 X (정규화 교차 스펙트럼을 모두 포함)는 Vᴴ 와 곱해져 K 차원 벡터 Z 를 만든다. 동시에 U S 의 각 행 D₍q₎ 를 정규화해 Ď₍q₎ 와 ĤZ 를 얻고, ℜ{D₍q₎ Zᴴ} 를 1 – ½‖Ď₍q₎ – ĤZ‖² 로 변환한다. 따라서 최적 DOA는 q = arg max ℜ{D₍q₎ Zᴴ} 와 동일하게, 최소 거리의 최근접 이웃 문제로 바뀐다. 이 문제는 k‑d 트리를 이용해 평균 O(log Q) 시간에 해결할 수 있다. 알고리즘은 두 단계로 나뉜다. 오프라인 단계에서는 W 를 구성하고 SVD를 수행해 U, S, V 를 얻은 뒤, Ď₍q₎ 벡터들을 k‑d 트리에 삽입한다. 온라인 단계에서는 실시간 STFT를 통해 X 를 만들고, Z = Vᴴ X 를 계산한 뒤, 트리 검색으로 최적 q 를 찾는다. 마지막으로 해당 q 에 대한 정확한 Y₍q₎ 값을 W 와 X 의 곱으로 복원해 신뢰도 판단에 활용한다. 실험에서는 1‑D 선형 배열, 2‑D 평면 배열, 3‑D 입체 배열 세 종류를 사용했으며, 마이크 위치는 cm 단위로 상세히 제시된다. 방은 10 m × 10 m × 3 m 크기의 직육면체이며, 이미지 방법을 이용해 반사 계수를 0.2–0.5 사이에서 무작위로 설정한 RIR을 생성했다. 음성 신호는 TIMI T 데이터셋을 사용하고, 백색 잡음을 추가해 SNR을 0–30 dB 범위로 변동시켰다. 각 배열당 1,000개의 무작위 시뮬레이션을 수행했으며, δ 값을 10⁻⁶부터 10⁰까지 변화시켜 재구성 오차와 RMSE 차이를 측정했다. 결과는 δ = 10⁻⁵일 때 SVD‑PHAT와 SRP‑PHAT의 RMSE 차이가 거의 없으며, Q/K 비율이 30배 이상 감소함을 보여준다. 특히 2‑D 배열에서 재구성 오차가 다소 크게 나타났지만, 전체적으로 정확도 손실 없이 연산량을 크게 줄일 수 있었다. 저자는 향후 다중 음원 추정, 이진 시간‑주파수 마스크 적용, 근거리 효과 및 마이크 위치 불확실성 보정 등으로 확장 가능성을 제시한다. **

SVD PHAT 기반 초고속 음원 위치 추정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기