다중 화자 위치 추정 및 추적을 위한 연속형 시스템

본 논문은 LOCATA 2018 챌린지를 위해 개발된 온라인 다중 화자 위치 추정·추적 파이프라인을 제시한다. 먼저 RLS 기반으로 직접 경로 상대 전달 함수(DP‑RTF)를 실시간 추정하고, 이를 특징으로 복소 가우시안 혼합 모델(CGMM)에서 각 후보 위치의 가중치를 온라인으로 업데이트한다. 마지막으로 가중치를 관측값으로 사용해 베이지안 추적기를 변분 EM(VEM)으로 구현하여 화자 탄생·소멸·잠복 과정을 모델링한다. 실험 결과 개발 데이터…

저자: Xiaofei Li, Yutong Ban, Laurent Girin

다중 화자 위치 추정 및 추적을 위한 연속형 시스템
본 논문은 LOCATA 2018 챌린지에 제출된 온라인 다중 화자 위치 추정·추적 시스템을 상세히 기술한다. 시스템은 크게 세 개의 모듈로 구성된다. 첫 번째 모듈은 직접 경로 상대 전달 함수(DP‑RTF)를 실시간으로 추정한다. 마이크 신호를 STFT로 변환하고, CTF(Convolutive Transfer Function) 모델을 적용해 각 마이크의 첫 번째 CTF 계수를 추출한다. 두 마이크 간 비율인 DP‑RTF는 직접 경로 정보를 담고 있어 reverberation에 강인하다. 교차 관계식과 첫 번째 계수 고정 제약을 이용해 선형 방정식 형태로 정리한 뒤, RLS(Recursive Least Squares) 알고리즘으로 프레임마다 업데이트한다. 잊음 계수 λ는 과거 프레임에 대한 가중을 조절하며, 스펙트럼 차감과 일관성 검사를 통해 노이즈 프레임을 배제하고 불안정한 추정치를 걸러낸다. 결과적으로 각 프레임 t에서 신뢰할 수 있는 DP‑RTF 집합 Cₜ를 얻는다. 두 번째 모듈은 온라인 다중 화자 위치 추정이다. 후보 위치 D개를 미리 정의하고, 각 후보에 대응하는 평균 DP‑RTF c_{i,d,f}를 직접 경로 전파 모델을 통해 계산한다. 관측된 DP‑RTF ˆc_{i,t,f}는 복소 가우시안 혼합 모델(CGMM)에 의해 설명된다. CGMM의 가중치 w_d는 후보 위치 d에 화자가 존재할 확률을 나타내며, 전체 로그우도 L_t를 최대화한다. 화자 수가 후보보다 적다는 사전 지식을 반영해 엔트로피 H = -∑ w_d log w_d 를 정규화 항으로 추가한다. 온라인 최적화는 KL 발산을 거리 함수로 하는 지수형 그래디언트(Exponentiated Gradient) 알고리즘을 사용한다. 구체적으로, 현재 가중치 w_{t-1}에 대해 손실 함수 -L_t + γH 의 기울기 Δ_{t-1}을 계산하고, r_{t-1}=exp(-Δ_{t-1}) 로 가중치를 업데이트한다. 이 과정은 가중치의 양성 및 합계 1 제약을 자동으로 만족한다. 세 번째 모듈은 베이지안 다중 화자 추적이다. 관측 변수 O_t는 후보 위치와 해당 가중치(w_{t,d})로 구성되며, 각 후보는 단위 벡터 b_{t,d}= (cos θ̃_{t,d}, sin θ̃_{t,d}) 로 표현된다. 화자 n의 상태 s_{t,n}는 방향 단위벡터 u_{t,n}와 각속도 v_{t,n}를 포함한다. 상태 전이는 선형 가우시안 마코프 모델로 가정하고, 방향이 원 위에 존재하므로 전이 행렬 D_{t-1,n}는 회전과 이동을 결합한 형태로 설계된다. 관측 모델은 가중치‑데이터 GMM 형태이며, 가중치 w_{t,d}가 클수록 관측의 정밀도가 높아진다. 배경(noise) 관측은 균일 분포로 처리한다. 추론은 변분 EM(VEM) 알고리즘을 사용한다. 변분 분포 q(s_t, z_t)를 화자별 독립 가우시안과 이산 할당 변수로 근사한다. E‑step에서는 각 화자별 사후 평균 μ_{t,n}와 공분산 Γ_{t,n}를 업데이트하고, M‑step에서는 전이 행렬·동역학 공분산·관측 공분산 등을 갱신한다. 화자 탄생(birth) 과정은 새로운 가중치 피크가 일정 임계값을 초과하면 새로운 트랙을 생성하고, 잠복(sleeping) 과정은 기존 트랙이 연속적으로 낮은 가중치를 받으면 일시적으로 비활성화한다. 이를 통해 화자 수가 시간에 따라 변하는 상황에서도 트랙을 안정적으로 유지한다. 실험은 LOCATA Challenge 2018 개발 데이터셋을 사용하였다. 실내·실외, 다양한 반향 시간, 이동 및 정지 화자 시나리오를 포함한다. 각 모듈의 개별 성능을 평가한 결과, RLS 기반 DP‑RTF 추정은 높은 SNR에서도 정확한 직접 경로 정보를 제공했으며, CGMM 기반 위치 추정은 엔트로피 정규화와 EG 업데이트 덕분에 희소하고 정확한 후보 가중치를 산출했다. 전체 파이프라인을 적용한 다중 화자 추적에서는 평균 위치 오차가 기존 베이스라인 대비 30 % 이상 감소하고, 화자 수 추정 정확도도 10 % 이상 향상되었다. 특히, 움직이는 화자와 높은 반향 환경에서도 추적이 끊기지 않고 연속적으로 유지되는 점이 강조된다. 결론적으로, 본 논문은 직접 경로 정보를 활용한 강인한 특징 추출, 온라인 CGMM 기반 희소 가중치 학습, 그리고 변분 베이지안 추적을 결합한 통합 시스템을 제안한다. 이 시스템은 실시간 처리 요구를 충족하면서도 복잡한 다중 화자 상황을 효과적으로 다룰 수 있음을 실험을 통해 입증하였다. 향후 연구에서는 비정형 마이크 배열, 딥러닝 기반 특징 추출, 그리고 다중 모달(음성·영상) 통합 추적으로 확장할 가능성을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기