클래스 조건 임베딩을 활용한 음악 소스 분리
본 논문은 음악 믹스에서 보컬, 드럼, 베이스, 기타 등 서로 다른 클래스를 가진 악기들을 하나의 임베딩 공간에 매핑하고, 보조 네트워크가 각 클래스별 가우시안 파라미터를 생성하도록 설계하였다. 임베딩에 대한 가우시안 혼합 모델(GMM) 후처리를 통해 소스 마스크를 얻으며, 딥 클러스터링 손실과 L1 재구성 손실을 동시에 학습한다. MUSDB‑18 실험에서 다양한 공분산 형태를 비교한 결과, 연결된 구형 공분산(tied spherical)이 가…
저자: Prem Seetharaman, Gordon Wichern, Shrikant Venkataramani
본 논문은 음악 믹스에서 서로 다른 악기 클래스를 동시에 분리하기 위한 새로운 프레임워크를 제안한다. 기존의 음악 소스 분리 연구는 보통 각 악기마다 별도의 딥 네트워크를 학습하거나, 특정 악기(예: 보컬)만을 목표로 하는 경우가 많았다. 이러한 접근법은 모델 수가 늘어나면서 학습 및 추론 비용이 급증하고, 새로운 악기를 추가하기 위해서는 또다른 모델을 설계해야 하는 비효율성을 내포한다. 저자들은 이러한 문제를 해결하고자, 모든 악기 클래스를 하나의 공통 임베딩 공간에 매핑하고, 클래스별 가우시안 파라미터를 동적으로 생성하는 보조 네트워크를 도입하였다.
시스템 구조는 크게 두 부분으로 나뉜다. 첫 번째는 임베딩 네트워크로, 입력으로 로그‑멜 스펙트로그램을 받아 4개의 BLSTM 레이어(양방향 각각 300 유닛)와 전결합 층을 통과시켜 각 T‑F bin에 대해 K‑차원(논문에서는 15차) 임베딩 벡터 v_j 를 출력한다. 두 번째는 클래스 조건 보조 네트워크로, 각 악기 클래스에 대한 원‑핫 벡터를 입력받아 해당 클래스의 가우시안 평균 μ_c, 공분산 Σ_c, 그리고 사전 확률 π_c 를 생성한다. 여기서 Σ_c 는 대각 혹은 구형 형태로 설정될 수 있으며, 클래스 간에 공유(tied)하거나 개별(untied)로 학습한다.
생성된 가우시안 파라미터를 이용해 GMM의 posterior p(z_c|v_j) 를 계산하고, 이를 마스크 m_{c,j} 로 직접 사용한다. 즉, 마스크는 각 T‑F bin 이 특정 클래스에 속할 확률로 정의되며, 이는 EM 알고리즘의 기대 단계와 동일한 역할을 한다. 파라미터 업데이트는 역전파를 통해 수행되며, EM의 최대 단계는 보조 네트워크가 학습하는 과정과 일치한다.
학습 목표는 두 가지 손실을 결합한 것이다. (1) 딥 클러스터링 손실 L_DC = ||VV^T - YY^T||_F^2 로, 임베딩이 같은 소스에 속한 bin 들을 가깝게, 다른 소스에 속한 bin 들을 멀게 배치하도록 유도한다. 여기서 Y 는 실제 소스 라벨에 기반한 이진 마스크를 멜 스펙트로그램에 투영한 행렬이다. (2) L1 재구성 손실 L_{L1}=∑_c |m_c ⊙ x - s_c| 로, 마스크가 원본 스펙트럼을 얼마나 정확히 복원하는지를 직접 최적화한다. 두 손실은 동일 가중치로 합산되어, 임베딩이 클러스터링과 신호 복원이라는 두 목표를 동시에 만족하도록 학습된다.
실험은 MUSDB‑18 데이터셋을 기반으로 진행되었다. 저자들은 Scaper 라이브러리를 확장해 20,000개의 합성 훈련 믹스와 2,000개의 검증 믹스를 생성했으며, 각 믹스는 3.2초 길이의 무작위 구간을 포함한다. 네트워크는 4개의 악기(보컬, 드럼, 베이스, 기타) 모두가 포함된 혼합을 학습한다. 테스트는 MUSDB‑18의 50곡을 사용했으며, SDR(소스‑대‑왜곡 비율) 지표를 통해 성능을 평가했다.
다양한 공분산 형태에 대한 비교 결과는 다음과 같다. (1) 비연결 대각 공분산(diag untied) 모델은 전반적으로 좋은 성능을 보였지만, 특정 차원에서 분산이 급격히 감소해 해당 차원이 마스크 자체가 되는 현상이 관찰되었다. (2) 클래스 간 공유 대각 공분산(diag tied)은 약간 낮은 SDR을 기록했다. (3) 비연결 구형 공분산(spherical untied) 역시 비슷한 수준이었지만, 일부 클래스에서 과도한 확신(낮은 분산)으로 인해 일반화가 떨어졌다. (4) 가장 우수한 성능을 보인 것은 클래스 간 공유 구형 공분산(tied spherical) 모델로, SDR이 보컬 4.49 dB, 드럼 4.23 dB, 베이스 2.73 dB, 기타 2.51 dB에 도달했다. 이 모델은 가우시안의 분산 파라미터가 전체 임베딩 차원에 동일하게 적용돼, 임베딩이 특정 차원에 편중되지 않고 전체 공간을 활용하도록 만든다.
시각화(PCA) 결과, 임베딩 공간은 클래스 간 “브리지”가 형성되는 구조를 보여준다. 예를 들어 보컬과 기타는 많은 T‑F bin을 공유하는데, 이는 두 소스가 모두 멜로디와 하모닉 성분을 포함하기 때문이다. 이러한 구조는 임베딩이 단순히 거리 기반 클러스터링을 넘어, 소스 간 유사성을 반영하면서도 분리를 최적화하도록 학습되었음을 의미한다. 또한, 저자들은 학습된 임베딩을 이용해 쿼리‑베이스 분리(query‑by‑example) 실험을 수행했으며, 사용자가 원하는 악기나 사운드 클립을 입력하면 해당 소스와 가장 유사한 T‑F bin을 자동으로 추출할 수 있음을 시연했다.
결론적으로, 이 논문은 (1) 클래스 조건 임베딩을 통해 다중 악기 소스 분리를 하나의 통합 모델로 구현, (2) 가우시안 파라미터를 보조 네트워크가 학습하도록 함으로써 EM‑알고리즘을 신경망 학습에 자연스럽게 녹여냈으며, (3) 다양한 공분산 구조를 실험적으로 검증해 공유 구형 공분산이 가장 효율적임을 밝혀냈다. 이러한 접근은 모델 수를 크게 줄이고, 새로운 악기 클래스를 추가할 때도 기존 네트워크를 재학습만 하면 되므로 확장성이 뛰어나다. 또한, 임베딩 공간이 직관적으로 해석 가능하고, 쿼리 기반 응용까지 가능하게 함으로써 실용적인 음악 정보 처리 시스템으로의 활용 가능성을 크게 확대한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기