대각 언로딩 빔포밍과 칼만 필터를 활용한 음향 소스의 정밀 위치 추적

본 논문은 IEEE AASP LOCATA 챌린지를 위한 음원 위치 추정 및 추적 시스템을 제안한다. 단일 음원 시나리오에서 방향(DOA)을 추정하기 위해 전처리, 음성 활동 감지(VAD), 위치 추정, 추적의 4단계 프레임워크를 구성했다. 핵심 기술은 저복잡도 고해상도의 대각 언로딩(Diagonal Unloading) 빔포밍을 이용한 위치 추정과, 칼만 필터를 이용한 추적 평활화이다. 선형, 의사 구형, 구형 등 세 가지 마이크 배열에 대한 L…

저자: Daniele Salvati, Carlo Drioli, Gian Luca Foresti

대각 언로딩 빔포밍과 칼만 필터를 활용한 음향 소스의 정밀 위치 추적
본 논문은 IEEE AASP 주관의 음향 소스 위치 추정 및 추적 챌린지(LOCATA)를 위한 통합 신호 처리 프레임워크를 제안하고 그 성능을 평가한다. 시스템의 목표는 단일 음원 환경에서 방향(DOA: Direction of Arrival)을 추정하고 궤적을 추적하는 것이다. 전체 시스템은 크게 네 가지 블록으로 구성된다. 첫 번째는 **전처리** 단계로, 마이크 배열로 수집된 다채널 신호에 대해 단시간 푸리에 변환(STFT)을 수행하고, 주파수 영역에서 교차 전력 스펙트럼 밀도(CPSD) 행렬을 추정한다. CPSD 행렬은 이후 단계들의 기본 입력이 된다. 두 번째는 **음성 활동 감지(VAD)** 단계이다. 본 논문에서는 CPSD 행렬의 트레이스(대각합), 즉 배열의 전체 수신 전력을 계산하고, 사전 설정된 임계값(η)과 비교하여 음성 활동 유무를 판단한다. 이 방법은 계산량이 적고 실시간 처리에 적합하다. 세 번째는 핵심인 **위치 추정** 단계이다. 여기서 저자들이 최근 제안한 **대각 언로딩(Diagonal Unloading, DU) 빔포밍** 기법이 사용된다. 이 방법은 CPSD 행렬에서 그 트레이스 값으로 구성된 대각 행렬을 빼는 변환을 수행한다. 이 변환은 신호 부공간 성분을 상대적으로 약화시키고, 빔 패턴의 부엽을 억제하여 고해상도의 공간 스펙트럼을 생성하는 효과가 있다. 광대역 신호에 대응하기 위해 각 주파수 빈에서 계산된 DU 응답 전력을 비간섭적 융합 방식으로 합산하여 최종적인 공간 스펙트럼을 얻고, 그 최대값을 탐지함으로써 음원의 DOA를 추정한다. 네 번째는 **추적** 단계로, 위치 추정 단계에서 얻은 개별 프레임의 DOA 추정값들은 잡음과 불연속성을 포함할 수 있다. 이를 평활화하고 연속적인 궤적을 생성하기 위해 **칼만 필터(Kalman Filter)** 를 적용한다. 칼만 필터는 DOA 각도와 그 변화율(속도)을 상태 변수로 하는 선형 운동 모델을 기반으로 예측 및 보정 단계를 반복하며 최적의 추정치를 출력한다. 실험 평가는 LOCATA 개발 데이터셋을 이용하여 수행되었다. 세 가지 다른 마이크로폰 배열(7개 채널의 선형 배열, 12개 채널의 로봇 헤드 의사 구형 배열, 32개 채널의 Eigenmike 구형 배열)에 대해 시스템을 테스트했다. 평가 시나리오는 정적 음원/정적 배열(태스크 1), 이동 음원/정적 배열(태스크 3), 이동 음원/이동 배열(태스크 5)을 포함한다. 성능 지표는 추정된 DOA와 실제 DOA 사이의 평균 제곱근 오차(RMSE)를 사용했다. 실험 결과는 배열의 기하학적 구조와 태스크의 난이도에 따라 성능이 크게 달라짐을 보여준다. 일반적으로 채널 수가 많고 입체적인 배열(로봇 헤드, Eigenmike)이 방위각과 고각을 모두 추정할 수 있어 더 풍부한 정보를 제공하지만, 모든 경우에서 우수한 성능을 보이는 것은 아니었다. 예를 들어, 이동 음원과 이동 배열이 결합된 가장 복잡한 태스크 5에서는 일부 기록에서 RMSE가 상대적으로 높게 나타났다. 논문은 이러한 결과를 정량적인 표와 함께 제시하며, 제안된 DU 빔포밍과 칼만 필터 기반의 프레임워크가 단일 음원 위치 추적 문제에 대해 실용적인 성능을 보임을 입증한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기