FastFCA: 전통 FCA를 250배 가속한 실시간 오디오 분리 혁신
FastFCA는 두 개의 음원에 대해 전통적인 전역 순위 공간 공분산 분석(FCA)의 파라미터 추정을 일반화 고유값 문제를 이용한 공동 대각화로 변환함으로써 프레임별 행렬 연산을 제거한다. 이로써 EM 알고리즘의 계산량을 크게 줄이고, 기존 FCA와 동일한 성능을 유지하면서 250배 이상 빠른 실시간 처리가 가능함을 실험적으로 입증한다.
저자: Nobutaka Ito, Shoko Araki, Tomohiro Nakatani
1. 서론
음성·음악 등 복합 음원을 마이크 어레이로 녹음한 뒤, 각 음원을 개별적으로 복원하는 문제는 최근 몇 년간 확률적 모델링을 기반으로 한 다양한 접근법이 제안되어 왔다. 전통적인 ICA 기반 방법은 각 음원의 전파 특성을 고정된 스티어링 벡터로 모델링하지만, 실제 실내 환경에서는 리버버런스, 이동 음원, 마이크 간 간섭 등으로 인해 이러한 단순 모델이 한계에 봉착한다. Duong et al.은 이러한 문제를 해결하고자 각 음원의 공간 특성을 전역 순위(full‑rank) 공분산 행렬 \(S_j(f)\)로 표현하는 FCA(Full‑rank Covariance Analysis)를 제안하였다. FCA는 리버버런스와 같은 복잡한 전파 현상을 자연스럽게 포착하면서도 EM 알고리즘을 통해 파라미터를 추정한다. 그러나 EM 과정에서 매 프레임마다 \((R_1+R_2)^{-1}\)와 같은 행렬 역연산을 수행해야 하므로, 마이크 수 \(I\)와 프레임 수 \(N\)가 커질수록 연산량이 급증한다. 이는 실시간 처리나 저전력 디바이스에 적용하기 어렵게 만든다.
2. FCA 모델 및 기존 EM 알고리즘
관측 신호 \(\mathbf{y}(n,f)\in\mathbb{C}^I\)는 두 음원 이미지 \(\mathbf{x}_1,\mathbf{x}_2\)의 합으로 표현된다. 각 음원은 복소 정규분포 \(\mathcal{N}(\mathbf{0},R_j(n,f))\)를 따르며, 여기서 \(R_j(n,f)=v_j(n,f)S_j(f)\)이다. \(S_j(f)\)는 시간에 독립적인 Hermitian 양의 정부호 행렬이며, \(v_j(n,f)\)는 시간‑주파수 스칼라 파워 스펙트럼이다. EM 알고리즘은
- E‑step: \(\boldsymbol\mu_j(n,f)=v_j S_j \bigl(\sum_k v_k S_k\bigr)^{-1}\mathbf{y}\)와 \(\Phi_j=v_j S_j - v_j S_j \bigl(\sum_k v_k S_k\bigr)^{-1} v_j S_j\)를 계산한다.
- M‑step: \(v_j(n,f)=\frac{1}{I}\operatorname{tr}\bigl(S_j^{-1}\Phi_j\bigr)\), \(S_j(f)=\frac{1}{N}\sum_n \frac{1}{v_j(n,f)}\Phi_j(n,f)\)를 업데이트한다.
이때 \(\bigl(\sum_k v_k S_k\bigr)^{-1}\)와 \(\Phi_j\)의 계산이 매 프레임마다 필요해 복잡도가 \(O(NF I^3)\)에 달한다.
3. FastFCA의 핵심 아이디어: 공동 대각화
FastFCA는 두 음원에 한정해 \(S_1(f)\)와 \(S_2(f)\)를 동시에 대각화할 수 있다는 사실을 이용한다. 일반화 고유값 문제
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기