배치 EM을 풀어낸 신경망 기반 화자 위치 추정

본 논문은 EM 알고리즘을 인코더‑EM‑디코더 구조에 풀어내어, 초기값 의존성을 완화하고 수렴 속도를 높인 해석 가능한 배치‑EM 풀어낸 신경망을 제안한다. 복소 가우시안 혼합 모델(CGG‑M)을 이용해 마이크 쌍의 상대 위상 비(Pair‑wise Relative Phase, PRP)를 관측값으로 삼고, 70개의 풀어낸 EM 레이어를 통해 스피커 위치를 추정한다. 실험 결과, 무향실 및 T₆₀=0.2 s의 반향 환경에서 기존 배치‑EM 대비 R…

저자: Rina Veler, Sharon Gannot

배치 EM을 풀어낸 신경망 기반 화자 위치 추정
본 논문은 복소 가우시안 혼합 모델(CGMM)을 기반으로 한 스피커 위치 추정 문제를 다루며, 전통적인 배치‑EM 알고리즘의 초기값 민감도와 지역 최적점 문제를 해결하기 위해 알고리즘 언롤링(언팩) 기법을 적용한 새로운 신경망 구조를 제안한다. 1. **문제 정의 및 모델링** - 마이크 쌍 M개의 배열에서 두 개의 마이크 신호를 이용해 상대 위상 비(Pair‑wise Relative Phase, PRP) ϕ_m(t,k)를 계산하고, 이를 M차원 복소 벡터 ϕ(t,k)로 결합한다. - PRP는 스피커 위치 p_s에 따라 이론적인 평균 ˜ϕ_km(p_s)와 복소 가우시안 분포 N_c(˜ϕ_km(p_s), σ²_s I) 로 모델링한다. - 각 TF-bin은 단일 스피커에 지배된다는 W‑Disjoint Orthogonality 가정 하에, 관측 데이터는 S개의 가우시안 컴포넌트와 하나의 아웃라이어 컴포넌트(S+1)를 갖는 혼합 모델로 표현된다. 2. **전통적인 EM 절차** - **E‑step**: 현재 파라미터 θ^(ℓ‑1) (혼합 가중치 ψ_s, 분산 σ²_s, 평균 ˜ϕ) 를 이용해 각 TF-bin이 스피커 s에 할당될 확률 µ(t,k,s)를 계산한다. - **M‑step**: µ를 기반으로 ψ_s, σ²_s, ˜ϕ_km(p_s) 를 업데이트한다(식 10a‑10c). - 최종 위치 추정은 모든 후보 방 위치에 대해 평균 ˜ϕ_km(p)와 최종 ˜ϕ_km(p_s) 간의 거리(식 11)를 최소화하는 방식으로 수행된다. 3. **배치‑EM 풀어낸 신경망 설계** - **인코더**: 임의의 방 위치를 입력받아 초기 PRP 평균 ˜ϕ와 초기 파라미터 ψ(0)=1/S, σ²(0)=1을 생성하는 완전 연결(FC) 레이어. - **풀어낸 EM 레이어**: 70개의 레이어로 구성되며, 각 레이어는 미분 가능한 형태로 E‑step과 M‑step을 구현한다. 복소값 PRP는 실수와 허수 파트를 연결해 FC 레이어에 입력하고, 출력 후 다시 복소 형태로 재구성한다. - **디코더**: 최종 PRP를 받아 스피커 좌표 ˆp 로 매핑한다. 디코더 역시 FC 레이어이며, ReLU 활성화를 사용한다. - **손실 함수**: 위치 오차(MSE)와 PRP 코사인 유사도(1‑CosSim)를 λ=0.25 비율로 가중합한 복합 손실 L = (1‑λ)·MSE + λ·(1‑CosSim) 로 학습한다. 이는 위치 정확도와 특징 일관성을 동시에 최적화한다. 4. **실험 설정** - 데이터는 WSJ 코퍼스를 기반으로 두 명의 정적 스피커가 임의의 직사각형 방(5‑7 m × 2.2‑2.6 m)에서 발화하는 상황을 시뮬레이션했다. 마이크는 8쌍(쌍당 거리 0.2 m)으로 배치하였다. - 환경 변수: 무향실(T₆₀=0 s) 및 반향실(T₆₀=0.2 s), 스피커 겹침 비율 25 %, 50 %, 75 %, SIR 0 dB, 5 dB, SNR 30 dB. - 학습 데이터 8,000개, 검증 데이터 2,000개를 사용했으며, 배치‑EM 풀어낸 레이어 수는 70, 초기 파라미터는 균등하게 설정하였다. 5. **결과 및 분석** - **무향실**: 배치‑EM이 거의 최적 해를 제공해 RMSE 0.25 m, 오류 비율 12.5 %를 기록했으며, 풀어낸 네트워크는 RMSE 0.31 m, 오류 비율 15.5 %로 약간 뒤처졌다. 이는 FC 매핑 과정에서 발생하는 근사 오차 때문으로 해석된다. - **반향실(T₆₀=0.2 s)**: 풀어낸 네트워크가 RMSE 0.37 m, 오류 비율 22 %를 달성해 배치‑EM(0.66 m, 56 %) 대비 39 % RMSE 감소와 오류 비율 절반 수준 감소를 보였다. 이는 학습된 매핑이 반향에 의해 왜곡된 PRP를 보정하고, 아웃라이어 클러스터가 비활성 TF-bin을 효과적으로 제거한 결과이다. - 전반적으로, 제안된 구조는 초기값에 대한 의존성을 크게 낮추고, 적은 레이어 수(70)로도 전통적인 배치‑EM과 동등하거나 더 나은 수렴 특성을 보이며, 실시간 적용 가능성을 시사한다. 6. **기여 및 향후 과제** - EM 절차를 완전 미분 가능하게 풀어내어 신경망 내부에서 학습 가능하도록 만든 점. - 복소 PRP를 직접 다루는 FC 레이어 설계와 실수‑허수 결합 방식 제시. - 아웃라이어 클러스터 도입으로 다중 스피커 상황에서의 견고성 강화. - 향후 연구는 동적 스피커 추적, 비정형 마이크 배열, 온라인 학습 및 실제 로봇 플랫폼 적용 등을 포함한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기