스펙트로그램 채널 U‑Net을 활용한 다중 소스 음원 분리 모델
본 논문은 기존 U‑Net 기반 음원 분리 모델의 마스크 출력 방식을 개선하여, 출력 채널 자체를 각 소스의 스펙트로그램으로 직접 예측하도록 설계하였다. 2채널(보컬·반주) 및 4채널(보컬·드럼·베이스·기타) 구성을 통해 노래와 다중 악기 데이터셋(MUSDB18)에서 상태‑최고 성능을 달성했으며, 소스별 볼륨 차이를 보정하는 가중 손실 함수도 제안한다.
저자: Jaehoon Oh, Duyeon Kim, Se-Young Yun
본 논문은 음악 정보 검색(MIR) 분야에서 핵심적인 전처리 작업인 음원 분리를 위해, 기존 U‑Net 기반 모델의 구조적 한계를 보완한 “Spectrogram‑Channels U‑Net”을 제안한다. 전통적인 마스크 기반 접근법은 출력이 혼합 스펙트로그램에 대한 마스크이기 때문에, 여러 소스가 동시에 존재하는 경우 각 소스의 에너지 차이와 위상 정보 손실로 인해 분리 성능이 제한된다. 이를 해결하고자 저자들은 디코더의 최종 레이어에서 1×1 컨볼루션을 사용해 N개의 채널을 직접 출력하고, 각 채널을 개별 소스의 magnitude 스펙트로그램으로 해석한다. 이렇게 하면 마스크를 곱하는 과정 없이 바로 소스 스펙트로그램을 얻을 수 있어, 다중 소스(예: 보컬, 드럼, 베이스, 기타)를 동시에 분리하는 것이 가능해진다.
아키텍처는 인코더‑디코더 형태의 완전 합성곱 신경망으로, 인코더는 3×3 커널, 패딩 1, 배치 정규화, ReLU를 적용한 2개의 연속 컨볼루션 뒤에 맥스 풀링을 배치해 해상도를 절반으로 감소시킨다. 디코더는 5×5 스트라이드 2 디컨볼루션(업샘플링)과 3×3 디컨볼루션을 교차 사용해 해상도를 복원한다. 디컨볼루션 단계마다 배치 정규화와 ReLU, 그리고 0.4 확률의 드롭아웃을 삽입해 일반화 능력을 강화한다. 인코더와 디코더 사이에는 동일 해상도 레이어를 스킵 연결해 저수준 주파수 정보를 보존한다. 최종 출력은 1×1 컨볼루션을 통해 N채널(2채널 혹은 4채널)로 압축되며, ReLU 활성화 함수를 사용해 음량이 음수가 되는 것을 방지한다.
데이터 전처리는 MUSDB18 데이터셋을 사용한다. 원본 스테레오 파일을 모노로 변환한 뒤, 44.1 kHz 샘플링, 2 초 길이의 프레임으로 자르고, 2048‑점 FFT와 hop 512를 적용해 복소수 스펙트로그램을 만든다. 복소수 스펙트로그램을 magnitude와 phase로 분리하고, magnitude만을 네트워크 입력 및 목표값으로 사용한다. Phase는 추정된 magnitude와 원본 혼합의 Phase를 결합해 역 STFT를 수행함으로써 최종 오디오를 복원한다.
손실 함수는 각 소스별 L1 손실을 가중합한 형태이며, 가중치 αₖ는 소스별 평균 2‑노름(에너지) 비율에 따라 자동으로 결정된다. 보컬은 일반적으로 에너지가 낮아 높은 α를 부여하고, 반주·기타 등 에너지가 큰 소스는 낮은 α를 부여한다. 이렇게 하면 학습 과정에서 저에너지 소스가 무시되는 현상을 방지하고, 전체 SDR 향상에 기여한다.
학습 설정은 Adam 옵티마이저(learning rate 1e‑3, weight decay 1e‑6)와 배치 8로 20 epoch을 진행한 뒤, learning rate 1e‑4로 추가 20 epoch을 수행한다. 평가 지표는 BSS_EVAL 패키지의 SDR이며, 20 초 입력을 1 초 단위로 슬라이딩 윈도우 평가해 아티팩트 감소 효과를 확인한다.
실험 결과는 두 가지 주요 설정에서 제시된다. 첫 번째는 보컬·반주 2채널 모델이다. α = 1.0(보컬 전용)과 α = 0.0(반주 전용) 모델은 각각 해당 소스에서 최고 SDR을 기록했으며, α = 0.5(동일 가중치) 모델은 두 소스 모두 평균적인 성능을 보였다. 특히 α = 0.707(볼륨 균형) 모델은 보컬 SDR ≈ 5.9 dB, 반주 SDR ≈ 6.1 dB로 가장 높은 종합 성능을 달성했다. 두 번째는 4채널(보컬·드럼·베이스·기타) 모델이다. 균등 가중치(
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기