참조 없이 오디오 소스 분리 품질을 예측하는 딥러닝 기반 평가법
본 논문은 기존에 필요했던 원본(참조) 신호 없이도 오디오 소스 분리 결과의 품질을 정량화할 수 있는 방법을 제안한다. 멜 스펙트로그램을 입력 특징으로 사용한 완전 연결 심층 신경망(DNN)을 학습시켜, Blind Source Separation Evaluation(BSS‑Eval) 툴킷의 Sources‑to‑Artifacts Ratio(SAR) 값을 직접 예측한다. 실험은 SiSEC‑2016 MUS 과제의 24개 분리 알고리즘과 100곡(실제…
저자: Emad M. Grais, Hagen Wierstorf, Dominic Ward
본 논문은 오디오 소스 분리 시스템의 품질을 평가할 때 반드시 필요하던 원본(참조) 신호 없이도 객관적인 지표를 제공하는 새로운 방법을 제안한다. 현재 널리 사용되는 BSS‑Eval 툴킷은 원본과 추정된 신호를 직접 비교해 ISR, SIR, SAR, SDR 네 가지 에너지 비율을 산출한다. 특히 SAR은 인공적인 아티팩트(노이즈, 왜곡 등)를 정량화하는 지표로, 인간 청취자에게도 직관적으로 인식되는 품질 요소와 높은 상관관계를 가진다. 그러나 실제 서비스 환경에서는 원본 신호를 구할 수 없기 때문에 이러한 객관적 평가가 불가능하다.
이에 저자들은 SAR을 목표 변수로 삼아, 멜‑주파수 스펙트로그램(MFS)을 입력 특징으로 사용하는 완전 연결 심층 신경망(DNN)을 학습시킨다. 모델은 3개의 은닉층(각 500노드)과 ReLU 활성화 함수를 사용하고, 최종 출력층은 선형 활성화를 통해 연속적인 SAR 값을 회귀한다. 손실 함수는 평균 제곱 오차(MSE)이며, 이는 실제 SAR과 예측 SAR 사이의 차이를 직접 최소화한다.
실험은 SiSEC‑2016 MUS 과제에서 제공된 100곡(실제 사용된 96곡)과 24개의 다양한 소스 분리 알고리즘을 이용한다. 각 곡은 117 ms 간격으로 464 ms 윈도우를 적용해 시간‑변화 SAR을 추출했으며, 이를 통해 모델이 순간적인 품질 변동을 학습하도록 설계하였다. 데이터는 67곡을 훈련, 29곡을 테스트에 사용하였다.
세 가지 평가 시나리오가 제시된다. 첫 번째는 **within‑algorithm test**로, 각 알고리즘마다 별도 DNN을 학습시켜 동일 알고리즘에 적용한다. 평균 절대 오차는 1.2 dB(범위 0.8~1.5 dB), 상관계수는 0.66~0.95로 가장 높은 정확도를 보인다. 이는 알고리즘별 특유의 왜곡 패턴을 모델이 충분히 포착함을 의미한다.
두 번째는 **across‑known‑algorithms test**이다. 24개 알고리즘 전체를 하나의 DNN에 통합 학습시켜 동일 알고리즘에 적용한다. 평균 절대 오차는 1.4 dB(범위 1.0~2.9 dB), 상관계수는 0.61~0.93으로, 알고리즘 간 차이를 어느 정도 일반화했지만 개별 최적화에 비해 성능이 약간 감소한다. 이는 다양한 알고리즘이 생성하는 스펙트럼 왜곡이 공유되는 특징을 가지고 있음을 시사한다.
세 번째는 **across‑unknown‑algorithms test**이다. 훈련에 사용되지 않은 7개 알고리즘을 대상으로 테스트한다. 평균 절대 오차는 2.3 dB(범위 1.1~4.4 dB), 상관계수는 0.30~0.93(훈련 알고리즘은 0.78~0.96)으로 가장 낮은 성능을 보였지만, SAR 전체 범위(−10 dB~20 dB) 대비 10~15% 수준의 오차에 머물렀다. 이는 모델이 새로운 알고리즘이 만들어내는 특이한 왜곡 패턴을 완전히 포착하지 못하지만, 대략적인 품질 추정은 가능함을 보여준다.
결과적으로, 제안된 DNN 기반 방법은 참조 신호가 없을 때도 SAR을 정확히 예측할 수 있음을 입증한다. 평균 절대 오차가 1~2 dB 수준이며, 이는 전체 SAR 범위의 4~10%에 해당한다. 따라서 실제 애플리케이션에서 알고리즘 선택, 자동 포스트‑프로세싱 여부 판단, 혹은 실시간 품질 모니터링 등에 활용할 수 있다.
하지만 몇 가지 한계점도 존재한다. 현재는 SAR 하나에만 초점을 맞추었으며, SDR, SIR 등 다른 객관적 지표에 대한 확장은 아직 이루어지지 않았다. 또한, 모델이 새로운 알고리즘에 대해 보이는 성능 저하를 완화하기 위해 더 다양한 데이터와 알고리즘을 포함한 대규모 학습이 필요하다. 모델 해석성을 높이기 위한 특성 중요도 분석이나 시각화 기법도 향후 연구 과제로 제시된다.
결론적으로, 본 연구는 “참조 없는 오디오 소스 분리 품질 평가”라는 실질적인 문제에 대한 최초의 딥러닝 기반 솔루션을 제공하며, 향후 연구와 실제 시스템에 적용될 가능성을 크게 열어준다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기