파동‑유넷과 이산 웨이블릿을 결합한 시간 영역 오디오 소스 분리

본 논문은 시간 영역 오디오 소스 분리를 위한 최신 딥러닝 모델인 Wave‑U‑Net의 구조적 한계를 분석하고, 이를 보완하기 위해 이산 웨이블릿 변환(DWT) 기반의 다운‑샘플링(DS) 및 업‑샘플링(US) 레이어를 설계하였다. 기존 Wave‑U‑Net은 인코더‑디코더 형태의 U‑Net을 차용해, 연속적인 DS와 US 블록을 통해 시간 해상도를 단계적으로 절반·두 배로 변환한다. 그러나 이러한 DS 블록은 저역통과 필터 없이 단순히 샘플을 버리는(decimation) 방식으로 구현돼, 앨리어싱을 야기하고 중요한 고주파 정보를 손실한다. 학습 과정에서 모델이 이러한 손실을 보완하도록 유도할 수는 있으나, 이는 데이터와 초기화에 크게 의존하는 불안정한 접근이다. 이를 해결하고자 저자들은 멀티레졸루션 분석(MRA)과 DWT 사이의 유사성을 발견하였다. DWT는 고역·저역 필터링 후 다운‑샘플링을 수행함으로써 앨리어싱을 억제하고, 역 DWT(inverse DWT)를 통해 완전 복원을 보장한다. 이러한 특성을 활용해, 논문에서는 Haar 웨이블릿을 기반으로 한 lifting scheme을 구현하였다. 구체적으로, 입력 특성 맵을 짝수·홀수 샘플로 분리(split), 짝수 샘플을 기반으로 홀수 샘플을 예측(prediction)하고 차분(error)으로 고역 서브밴드를 만든 뒤, 고역 서브밴드와 짝수 샘플을 업데이트(update)하여 저역 서브밴드를 생성한다. 마지막으로 정규화 상수 A를 적용해 두 서브밴드를 스케일링하고, 채널 축으로 연결해 다운‑샘플링된 특성 맵을 만든다. 역 DWT 레이어는 이 과정을 역순으로 수행해 원래 해상도로 복원한다. 제안된 DWT/Inverse DWT 레이어를 Wave‑U‑Net의 DS·US 블록에 각각 삽입함으로써, 기존 구조와 동일한 인코더‑디코더 흐름을 유지하면서도 앨리어싱 방지와 완전 복원을 동시에 만족한다. 실험에서는 MUSDB18 데이터셋(훈련 100곡, 테스트 50곡)을 사용해 베이스, 드럼, 보컬, 기타 4개의 소스를 분리하였다. 모델은 기존 Wave‑U‑Net, 파라미터를 늘린 Wave‑U‑Net+, 평균 풀링 기반 변형(Average Pooling), 그리고 Squeezing 변형을 포함한 네 가지 베이스라인과 비교되었다. 평가 지표는 SDR(신호 대 왜곡 비율)이며, median 및 average 값을 5회 반복 실험 후 평균하였다. 결과는 제안 모델(Proposed)이 파라미터가 절반 수준(15.15M)임에도 불구하고, 기존 Wave‑U‑Net(10.26M) 및 파라미터를 두 배로 늘린 Wave‑U‑Net+(28.31M)보다 전반적으로 높은 SDR을 기록했다. 특히 베이스와 드럼에서 약 0.2~0.3dB의 개선을 보였으며, 보컬과 기타에서도 경쟁력 있는 성능을 유지했다. 반면, 파라미터가 동일하거나 적은 Average Pooling과 Squeezing 변형은 완전 복원 특성이 결여돼 성능이 크게 뒤처졌다. 이는 DWT 레이어가 제공하는 저역통과 필터와 완전 복원 특성이 소스 분리 성능에 결정적인 영향을 미친다는 것을 실증한다. 논문은 또한 Haar 웨이블릿 외 다른 웨이블릿(예: Daubechies, Symlet)의 적용 가능성을 언급하고, 향후 연구에서는 다양한 웨이블릿 선택, 다중 레벨 DWT 적용, 실시간 처리와 메모리 효율성을 위한 경량화 방안을 제시한다. 최종적으로, 이산 웨이블릿 기반 DS·US 레이어는 기존 딥러닝 기반 오디오 처리 모델에 쉽게 적용 가능하며, 앨리어싱 방지와 정보 손실 최소화를 동시에 달성함으로써 보다 신뢰성 높은 시간 영역 소스 분리를 가능하게 한다.

파동‑유넷과 이산 웨이블릿을 결합한 시간 영역 오디오 소스 분리

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기