다중 음원 추적을 위한 원미스 분포 기반 변분 EM 알고리즘

**1. 연구 배경 및 목표** 다중 음원 추적은 로봇 청각, 스마트 스피커, 회의 시스템 등에서 핵심 기술이다. 기존 방법은 TDOA 기반 입자 필터나 선형 동역학을 이용했지만, DOA를 직접 모델링하면 원형 변수라는 특성을 활용할 수 있다. 그러나 다중 소스가 존재하고 소스 수가 시간에 따라 변할 때, 관측‑소스 연관을 동시에 추정해야 하는 조합 문제가 급격히 복잡해진다. 본 논문은 이러한 문제를 원미스(von Mises) 분포와 변분 기대‑최대화(VEM) 프레임워크로 해결한다. **2. 확률 모델** - **관측 변수** yₜₘ : 각 프레임 t에서 Mₜ개의 DOA 관측값. - **잠재 변수** sₜₙ : N개의 음원 각각의 실제 DOA. - **연관 변수** Zₜₘ ∈ {0,…,N} : 관측이 어느 소스에 귀속되는지(0은 클러터). 관측 모델은 p(yₜₘ | Zₜₘ=n, sₜₙ) = M(yₜₘ; sₜₙ, κ_y ωₜₘ) (음원) 또는 U(yₜₘ) (클러터) 로 정의한다. 여기서 M은 평균 s와 농도 κ를 갖는 원미스 분포이며, ωₜₘ은 관측 신뢰도이다. 소스 동역학은 첫 번째 차원(0차) 원미스 모델 p(sₜₙ | sₜ₋₁ₙ) = M(sₜₙ; sₜ₋₁ₙ, κ_d) 로 가정한다. **3. 베이지안 필터링과 변분 근사** 필터링 목표는 p(sₜ, zₜ | y₁:ₜ) 이다. 직접 계산은 연관 변수 조합이 지수적으로 증가해 불가능하다. 따라서 변분 근사 p(sₜ, zₜ | y₁:ₜ) ≈ q(sₜ) q(zₜ) 를 도입한다. 이로써 VEM 알고리즘이 다음 세 단계로 분리된다. - **E‑S 단계**: q(sₜₙ)를 원미스 형태로 업데이트. 평균 μₜₙ과 농도 κₜₙ은 이전 예측(μₜ₋₁ₙ, κ̃ₜ₋₁ₙ)와 현재 관측의 가중합으로 계산된다. 가중치는 αₜₘₙ = q(Zₜₘ=n)이며, 이는 관측‑소스 연관 확률이다. - **E‑Z 단계**: q(zₜₘ)는 베이즈 규칙에 따라 αₜₘₙ = πₙ βₜₘₙ / ∑ₗπₗ βₜₘₗ 로 구한다. βₜₘₙ은 관측 yₜₘ과 현재 소스 평균 μₜₙ 사이의 원미스 적합도와 신뢰도 ωₜₘ을 포함한다. - **M 단계**: πₙ은 αₜₘₙ의 합으로 재추정하고, κ_y와 κ_d는 로그우도에 대한 그래디언트 하강으로 최적화한다. 이 순환을 매 시간 단계마다 수행하면, 연관 변수와 소스 상태가 동시에 수렴한다. 변분 근사 덕분에 조합 폭발이 억제되고, 연산량은 O(N · Mₜ) 수준으로 유지된다. **4. 소스 탄생 메커니즘** 새로운 음원이 등장하면 기존 소스와 연결되지 않은 관측(클러터)들이 누적된다. L = 2 프레임 동안 이러한 관측을 시퀀스 ˆy_jₜ₋L:ₜ 로 묶고, 주변우도 τ_j = p(ˆy_j) 를 원미스 적분식으로 계산한다. τ_j가 사전 정의된 임계값 τ₀를 초과하면 새로운 소스가 생성되고, 초기 q(sₜ)도 원미스로 설정된다. 이 과정은 소스 수가 동적으로 변하는 상황에서도 트래커가 자동으로 적응하도록 만든다. **5. 실험 설정** - **데이터**: LOCATA Challenge Task 6 (두 이동 스피커, 이동 마이크 어레이, 실제 방음향). - **관측 입력**: 온라인 DOA 추정 모듈(

다중 음원 추적을 위한 원미스 분포 기반 변분 EM 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기