FastFCA: 전통 FCA를 250배 가속한 실시간 오디오 분리 혁신

1. 서론 음성·음악 등 복합 음원을 마이크 어레이로 녹음한 뒤, 각 음원을 개별적으로 복원하는 문제는 최근 몇 년간 확률적 모델링을 기반으로 한 다양한 접근법이 제안되어 왔다. 전통적인 ICA 기반 방법은 각 음원의 전파 특성을 고정된 스티어링 벡터로 모델링하지만, 실제 실내 환경에서는 리버버런스, 이동 음원, 마이크 간 간섭 등으로 인해 이러한 단순 모델이 한계에 봉착한다. Duong et al.은 이러한 문제를 해결하고자 각 음원의 공간 특성을 전역 순위(full‑rank) 공분산 행렬 \(S_j(f)\)로 표현하는 FCA(Full‑rank Covariance Analysis)를 제안하였다. FCA는 리버버런스와 같은 복잡한 전파 현상을 자연스럽게 포착하면서도 EM 알고리즘을 통해 파라미터를 추정한다. 그러나 EM 과정에서 매 프레임마다 \((R_1+R_2)^{-1}\)와 같은 행렬 역연산을 수행해야 하므로, 마이크 수 \(I\)와 프레임 수 \(N\)가 커질수록 연산량이 급증한다. 이는 실시간 처리나 저전력 디바이스에 적용하기 어렵게 만든다. 2. FCA 모델 및 기존 EM 알고리즘 관측 신호 \(\mathbf{y}(n,f)\in\mathbb{C}^I\)는 두 음원 이미지 \(\mathbf{x}_1,\mathbf{x}_2\)의 합으로 표현된다. 각 음원은 복소 정규분포 \(\mathcal{N}(\mathbf{0},R_j(n,f))\)를 따르며, 여기서 \(R_j(n,f)=v_j(n,f)S_j(f)\)이다. \(S_j(f)\)는 시간에 독립적인 Hermitian 양의 정부호 행렬이며, \(v_j(n,f)\)는 시간‑주파수 스칼라 파워 스펙트럼이다. EM 알고리즘은 - E‑step: \(\boldsymbol\mu_j(n,f)=v_j S_j \bigl(\sum_k v_k S_k\bigr)^{-1}\mathbf{y}\)와 \(\Phi_j=v_j S_j - v_j S_j \bigl(\sum_k v_k S_k\bigr)^{-1} v_j S_j\)를 계산한다. - M‑step: \(v_j(n,f)=\frac{1}{I}\operatorname{tr}\bigl(S_j^{-1}\Phi_j\bigr)\), \(S_j(f)=\frac{1}{N}\sum_n \frac{1}{v_j(n,f)}\Phi_j(n,f)\)를 업데이트한다. 이때 \(\bigl(\sum_k v_k S_k\bigr)^{-1}\)와 \(\Phi_j\)의 계산이 매 프레임마다 필요해 복잡도가 \(O(NF I^3)\)에 달한다. 3. FastFCA의 핵심 아이디어: 공동 대각화 FastFCA는 두 음원에 한정해 \(S_1(f)\)와 \(S_2(f)\)를 동시에 대각화할 수 있다는 사실을 이용한다. 일반화 고유값 문제 \

FastFCA: 전통 FCA를 250배 가속한 실시간 오디오 분리 혁신

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기