다중 음원 추적을 위한 원미스 분포 기반 변분 EM 알고리즘

본 논문은 원미스(von Mises) 분포를 이용해 원형 DOA(방향) 데이터를 모델링하고, 변분 기대-최대화(VEM) 프레임워크를 통해 다중 이동 음원의 실시간 추적을 구현한다. 관측‑소스 연관성을 확률적 이산 변수로 두고, 변분 근사를 적용해 필터링 분포의 조합 폭발을 억제한다. 또한, 새로운 음원을 부드러운 궤적을 가정한 ‘소스 탄생’ 절차로 자동 초기화·감지한다. 실험은 로카타(LOCATA) 데이터셋의 이동 마이크로폰 로봇 환경에서 수행…

저자: Yutong Ban, Xavier Alameda-PIneda, Christine Evers

다중 음원 추적을 위한 원미스 분포 기반 변분 EM 알고리즘
**1. 연구 배경 및 목표** 다중 음원 추적은 로봇 청각, 스마트 스피커, 회의 시스템 등에서 핵심 기술이다. 기존 방법은 TDOA 기반 입자 필터나 선형 동역학을 이용했지만, DOA를 직접 모델링하면 원형 변수라는 특성을 활용할 수 있다. 그러나 다중 소스가 존재하고 소스 수가 시간에 따라 변할 때, 관측‑소스 연관을 동시에 추정해야 하는 조합 문제가 급격히 복잡해진다. 본 논문은 이러한 문제를 원미스(von Mises) 분포와 변분 기대‑최대화(VEM) 프레임워크로 해결한다. **2. 확률 모델** - **관측 변수** yₜₘ : 각 프레임 t에서 Mₜ개의 DOA 관측값. - **잠재 변수** sₜₙ : N개의 음원 각각의 실제 DOA. - **연관 변수** Zₜₘ ∈ {0,…,N} : 관측이 어느 소스에 귀속되는지(0은 클러터). 관측 모델은 p(yₜₘ | Zₜₘ=n, sₜₙ) = M(yₜₘ; sₜₙ, κ_y ωₜₘ) (음원) 또는 U(yₜₘ) (클러터) 로 정의한다. 여기서 M은 평균 s와 농도 κ를 갖는 원미스 분포이며, ωₜₘ은 관측 신뢰도이다. 소스 동역학은 첫 번째 차원(0차) 원미스 모델 p(sₜₙ | sₜ₋₁ₙ) = M(sₜₙ; sₜ₋₁ₙ, κ_d) 로 가정한다. **3. 베이지안 필터링과 변분 근사** 필터링 목표는 p(sₜ, zₜ | y₁:ₜ) 이다. 직접 계산은 연관 변수 조합이 지수적으로 증가해 불가능하다. 따라서 변분 근사 p(sₜ, zₜ | y₁:ₜ) ≈ q(sₜ) q(zₜ) 를 도입한다. 이로써 VEM 알고리즘이 다음 세 단계로 분리된다. - **E‑S 단계**: q(sₜₙ)를 원미스 형태로 업데이트. 평균 μₜₙ과 농도 κₜₙ은 이전 예측(μₜ₋₁ₙ, κ̃ₜ₋₁ₙ)와 현재 관측의 가중합으로 계산된다. 가중치는 αₜₘₙ = q(Zₜₘ=n)이며, 이는 관측‑소스 연관 확률이다. - **E‑Z 단계**: q(zₜₘ)는 베이즈 규칙에 따라 αₜₘₙ = πₙ βₜₘₙ / ∑ₗπₗ βₜₘₗ 로 구한다. βₜₘₙ은 관측 yₜₘ과 현재 소스 평균 μₜₙ 사이의 원미스 적합도와 신뢰도 ωₜₘ을 포함한다. - **M 단계**: πₙ은 αₜₘₙ의 합으로 재추정하고, κ_y와 κ_d는 로그우도에 대한 그래디언트 하강으로 최적화한다. 이 순환을 매 시간 단계마다 수행하면, 연관 변수와 소스 상태가 동시에 수렴한다. 변분 근사 덕분에 조합 폭발이 억제되고, 연산량은 O(N · Mₜ) 수준으로 유지된다. **4. 소스 탄생 메커니즘** 새로운 음원이 등장하면 기존 소스와 연결되지 않은 관측(클러터)들이 누적된다. L = 2 프레임 동안 이러한 관측을 시퀀스 ˆy_jₜ₋L:ₜ 로 묶고, 주변우도 τ_j = p(ˆy_j) 를 원미스 적분식으로 계산한다. τ_j가 사전 정의된 임계값 τ₀를 초과하면 새로운 소스가 생성되고, 초기 q(sₜ)도 원미스로 설정된다. 이 과정은 소스 수가 동적으로 변하는 상황에서도 트래커가 자동으로 적응하도록 만든다. **5. 실험 설정** - **데이터**: LOCATA Challenge Task 6 (두 이동 스피커, 이동 마이크 어레이, 실제 방음향). - **관측 입력**: 온라인 DOA 추정 모듈(

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기