시간 영역 가우시안 프로세스 기반 오디오 소스 분리를 위한 스펙트럼 프라이어와 희소 변분 기법

본 논문은 가우시안 프로세스(GP)를 이용한 시간 영역 오디오 소스 분리 모델을 제안한다. 기존의 스펙트로그램 기반 방법은 위상 정보를 무시하거나 근사해야 하는 한계가 있었으며, GP는 커널을 통해 직접 파형을 모델링함으로써 이러한 문제를 회피한다. 그러나 GP 추론은 공분산 행렬의 역연산으로 인해 O(n³)의 복잡도를 가지므로, 긴 오디오 신호에 적용하기 어려웠다. 이를 해결하기 위해 저자는 세 가지 핵심 기술을 결합한다. 첫째, 각 소스를 고유한 스펙트럼 혼합(SM) 커널로 모델링한다. SM 커널은 정역 커널의 스펙트럼 밀도를 가우시안 혼합으로 근사하므로, 실제 악기 음색이 가진 복잡한 조화 구조를 효과적으로 포착한다. 논문에서는 마틴‑½ 스펙트럼 혼합(MSM) 형태를 채택해, 진폭(α), 중심 주파수(ω), 길이 스케일(ℓ), 변동(σ²) 네 파라미터를 이용해 각 소스의 스펙트럼을 사전 학습한다. 둘째, 변분 희소 GP(Variational Sparse GP)를 적용해 계산 복잡도를 O(n m²)로 낮춘다. 여기서 m은 유도 변수의 수이며, 유도점(z)은 시간 축상의 일부 샘플에 해당한다. 변분 하한(LΔ)은 실제 마진 가능도(log p(y))의 하한으로, 이 하한을 최대화함으로써 커널 파라미터와 유도점 위치를 동시에 학습한다. 이 과정에서 행렬 연산은 유도점 수에 비례하므로, 전체 신호 길이에 비해 매우 효율적이다. 셋째, 프레임 기반 처리와 오버랩-애드(Overlap‑Add) 방식을 도입한다. 전체 믹스 신호를 125 ms(≈2001 샘플) 길이의 프레임으로 나누고 50 % 겹치게 하여, 각 프레임마다 변분 하한을 최적화한다. 프레임별로 학습된 소스 분산 σ²_j 를 이용해 소스별 사후 분포를 계산하고, 오버랩‑애드를 통해 연속적인 파형을 복원한다. 실험은 16 kHz로 샘플링된 피아노, 전기 기타, 클라리넷 3가지 악기의 합성 믹스를 사용했다. 각 악기는 C4, E4, G4 음을 포함하며, 목표는 세 개의 독립 소스를 복원하는 것이다. 비교 대상은 LD‑PSDTF, KL‑NMF, IS‑NMF이며, 평가 지표는 SDR, SIR, SAR, RMSE이다. 결과는 다음과 같다. 제안된 SSGP(희소 GP) 모델은 SDR 24.1 dB, SIR 31.4 dB, SAR 25.1 dB를 기록해 모든 비교 방법을 앞섰다. 특히 풀 GP(SSGP‑full)와 비교했을 때 학습 시간은 284 분에서 5.33 분으로 98 % 이상 감소했다. 이는 변분 희소 GP가 실제 적용 가능성을 크게 높인다는 것을 의미한다. 또한, 학습된 커널은 각 악기의 고유 스펙트럼 패턴을 잘 반영했으며, D(커널 구성 요소 수)를 3 이상으로 늘리면 성능이 안정화되고 RMSE는 지수적으로 감소한다. 논문은 이러한 결과를 바탕으로, (1) SM 커널을 통한 풍부한 스펙트럼 사전 지식 제공, (2) 변분 희소 GP를 통한 대규모 시계열 데이터 처리, (3) 시간 영역에서 위상 문제를 완전히 회피하는 구조적 장점이라는 세 축을 결합함으로써, 기존 스펙트로그램 기반 방법이 갖는 근본적 한계를 뛰어넘는 새로운 패러다임을 제시한다. 향후 다중 피치 검출, 실시간 음악 정보 검색, 음성 강화 등 위상 정확도가 중요한 응용 분야에 적용 가능성이 크다. 코드와 데이터는 공개 저장소에 제공된다.

시간 영역 가우시안 프로세스 기반 오디오 소스 분리를 위한 스펙트럼 프라이어와 희소 변분 기법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기