배치 EM을 풀어낸 신경망 기반 화자 위치 추정

본 논문은 복소 가우시안 혼합 모델(CGMM)을 기반으로 한 스피커 위치 추정 문제를 다루며, 전통적인 배치‑EM 알고리즘의 초기값 민감도와 지역 최적점 문제를 해결하기 위해 알고리즘 언롤링(언팩) 기법을 적용한 새로운 신경망 구조를 제안한다. 1. **문제 정의 및 모델링** - 마이크 쌍 M개의 배열에서 두 개의 마이크 신호를 이용해 상대 위상 비(Pair‑wise Relative Phase, PRP) ϕ_m(t,k)를 계산하고, 이를 M차원 복소 벡터 ϕ(t,k)로 결합한다. - PRP는 스피커 위치 p_s에 따라 이론적인 평균 ˜ϕ_km(p_s)와 복소 가우시안 분포 N_c(˜ϕ_km(p_s), σ²_s I) 로 모델링한다. - 각 TF-bin은 단일 스피커에 지배된다는 W‑Disjoint Orthogonality 가정 하에, 관측 데이터는 S개의 가우시안 컴포넌트와 하나의 아웃라이어 컴포넌트(S+1)를 갖는 혼합 모델로 표현된다. 2. **전통적인 EM 절차** - **E‑step**: 현재 파라미터 θ^(ℓ‑1) (혼합 가중치 ψ_s, 분산 σ²_s, 평균 ˜ϕ) 를 이용해 각 TF-bin이 스피커 s에 할당될 확률 µ(t,k,s)를 계산한다. - **M‑step**: µ를 기반으로 ψ_s, σ²_s, ˜ϕ_km(p_s) 를 업데이트한다(식 10a‑10c). - 최종 위치 추정은 모든 후보 방 위치에 대해 평균 ˜ϕ_km(p)와 최종 ˜ϕ_km(p_s) 간의 거리(식 11)를 최소화하는 방식으로 수행된다. 3. **배치‑EM 풀어낸 신경망 설계** - **인코더**: 임의의 방 위치를 입력받아 초기 PRP 평균 ˜ϕ와 초기 파라미터 ψ(0)=1/S, σ²(0)=1을 생성하는 완전 연결(FC) 레이어. - **풀어낸 EM 레이어**: 70개의 레이어로 구성되며, 각 레이어는 미분 가능한 형태로 E‑step과 M‑step을 구현한다. 복소값 PRP는 실수와 허수 파트를 연결해 FC 레이어에 입력하고, 출력 후 다시 복소 형태로 재구성한다. - **디코더**: 최종 PRP를 받아 스피커 좌표 ˆp 로 매핑한다. 디코더 역시 FC 레이어이며, ReLU 활성화를 사용한다. - **손실 함수**: 위치 오차(MSE)와 PRP 코사인 유사도(1‑CosSim)를 λ=0.25 비율로 가중합한 복합 손실 L = (1‑λ)·MSE + λ·(1‑CosSim) 로 학습한다. 이는 위치 정확도와 특징 일관성을 동시에 최적화한다. 4. **실험 설정** - 데이터는 WSJ 코퍼스를 기반으로 두 명의 정적 스피커가 임의의 직사각형 방(5‑7 m × 2.2‑2.6 m)에서 발화하는 상황을 시뮬레이션했다. 마이크는 8쌍(쌍당 거리 0.2 m)으로 배치하였다. - 환경 변수: 무향실(T₆₀=0 s) 및 반향실(T₆₀=0.2 s), 스피커 겹침 비율 25 %, 50 %, 75 %, SIR 0 dB, 5 dB, SNR 30 dB. - 학습 데이터 8,000개, 검증 데이터 2,000개를 사용했으며, 배치‑EM 풀어낸 레이어 수는 70, 초기 파라미터는 균등하게 설정하였다. 5. **결과 및 분석** - **무향실**: 배치‑EM이 거의 최적 해를 제공해 RMSE 0.25 m, 오류 비율 12.5 %를 기록했으며, 풀어낸 네트워크는 RMSE 0.31 m, 오류 비율 15.5 %로 약간 뒤처졌다. 이는 FC 매핑 과정에서 발생하는 근사 오차 때문으로 해석된다. - **반향실(T₆₀=0.2 s)**: 풀어낸 네트워크가 RMSE 0.37 m, 오류 비율 22 %를 달성해 배치‑EM(0.66 m, 56 %) 대비 39 % RMSE 감소와 오류 비율 절반 수준 감소를 보였다. 이는 학습된 매핑이 반향에 의해 왜곡된 PRP를 보정하고, 아웃라이어 클러스터가 비활성 TF-bin을 효과적으로 제거한 결과이다. - 전반적으로, 제안된 구조는 초기값에 대한 의존성을 크게 낮추고, 적은 레이어 수(70)로도 전통적인 배치‑EM과 동등하거나 더 나은 수렴 특성을 보이며, 실시간 적용 가능성을 시사한다. 6. **기여 및 향후 과제** - EM 절차를 완전 미분 가능하게 풀어내어 신경망 내부에서 학습 가능하도록 만든 점. - 복소 PRP를 직접 다루는 FC 레이어 설계와 실수‑허수 결합 방식 제시. - 아웃라이어 클러스터 도입으로 다중 스피커 상황에서의 견고성 강화. - 향후 연구는 동적 스피커 추적, 비정형 마이크 배열, 온라인 학습 및 실제 로봇 플랫폼 적용 등을 포함한다.

배치 EM을 풀어낸 신경망 기반 화자 위치 추정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기