OSQA 점수를 직접 최적화하는 DNN 기반 소스 강화 방법

본 논문은 객관적 음질 평가(OSQA) 점수를 직접 향상시키기 위해, 딥 뉴럴 네트워크(DNN)를 블랙‑박스 최적화와 정책 그래디언트 기법으로 학습하는 새로운 프레임워크를 제안한다. 기존의 MSE 기반 마스크 추정과 달리, 제안 방법은 출력 신호의 확률밀도함수를 추정하고 샘플링을 통해 OSQA 점수가 높은 신호를 생성하도록 DNN 파라미터를 업데이트한다. 실험 결과, PESQ와 STOI 등 주요 OSQA 지표가 크게 개선되는 동시에 MSE는 최…

저자: Yuma Koizumi, Kenta Niwa, Yusuke Hioka

OSQA 점수를 직접 최적화하는 DNN 기반 소스 강화 방법
본 논문은 딥러닝 기반 음원 강화 시스템에서 인간 청취 품질을 직접적으로 향상시키기 위한 새로운 학습 프레임워크를 제안한다. 전통적으로 DNN은 시간‑주파수(T‑F) 마스크를 추정하고, MSE, 최대우도(ML), KL‑IS 등 수식적으로 미분 가능한 손실 함수를 최소화하도록 학습되었다. 그러나 이러한 손실은 인간이 실제로 느끼는 음질과 반드시 일치하지 않으며, PESQ, STOI와 같은 객관적 음질 평가(OSQA) 점수는 비분석적(블랙‑박스) 특성을 가진다. 따라서 OSQA 점수를 직접 목표 함수로 삼는 것이 더 바람직하지만, 그라디언트를 직접 계산할 수 없어 기존 역전파 방식으로는 학습이 불가능했다. 이를 해결하기 위해 저자들은 블랙‑박스 최적화 이론을 차용하고, 정책 그래디언트(policy gradient) 방법을 DNN 학습에 적용하였다. 구체적인 흐름은 다음과 같다. 1) 입력 스펙트로그램 Xτ를 DNN에 입력하여, 각 주파수 bin에 대한 마스크 평균값 Ĝ(·)와 분산 σ²(·)를 출력한다. 이 두 파라미터는 복소 가우시안 확률밀도 p(Ŝ|X,Θ)를 정의한다. 2) 정의된 확률밀도에서 K개의 샘플 Ŝ(k) 를 추출한다. 샘플링은 마스크가 0~1 구간에 머물도록 복소 평면에서 직접 수행된다. 3) 각 샘플에 대해 OSQA 점수 B(Ŝ(k),X)를 계산한다. PESQ, STOI 등은 일반적으로 전체 utterance 단위로 평가되므로, 한 utterance에 대해 K개의 샘플을 모두 사용해 평균 점수를 구한다. 4) 로그‑가능도 ∇Θ ln p(Ŝ(k)|X,Θ)와 B(Ŝ(k),X)를 곱해 평균함으로써 ∇Θ J(Θ) 를 추정한다. 이때 점수 정규화(score normalization)를 적용해 B값의 평균을 0, 표준편차를 1로 맞추어 그래디언트 분산을 감소시킨다. 5) 모든 훈련 utterance에 대해 위 과정을 반복하고, 얻어진 그래디언트를 사용해 파라미터 Θ를 업데이트한다. 수식적으로는 기대값 E_{Ŝ,X}

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기