OSQA 점수를 직접 최적화하는 DNN 기반 소스 강화 방법

본 논문은 딥러닝 기반 음원 강화 시스템에서 인간 청취 품질을 직접적으로 향상시키기 위한 새로운 학습 프레임워크를 제안한다. 전통적으로 DNN은 시간‑주파수(T‑F) 마스크를 추정하고, MSE, 최대우도(ML), KL‑IS 등 수식적으로 미분 가능한 손실 함수를 최소화하도록 학습되었다. 그러나 이러한 손실은 인간이 실제로 느끼는 음질과 반드시 일치하지 않으며, PESQ, STOI와 같은 객관적 음질 평가(OSQA) 점수는 비분석적(블랙‑박스) 특성을 가진다. 따라서 OSQA 점수를 직접 목표 함수로 삼는 것이 더 바람직하지만, 그라디언트를 직접 계산할 수 없어 기존 역전파 방식으로는 학습이 불가능했다. 이를 해결하기 위해 저자들은 블랙‑박스 최적화 이론을 차용하고, 정책 그래디언트(policy gradient) 방법을 DNN 학습에 적용하였다. 구체적인 흐름은 다음과 같다. 1) 입력 스펙트로그램 Xτ를 DNN에 입력하여, 각 주파수 bin에 대한 마스크 평균값 Ĝ(·)와 분산 σ²(·)를 출력한다. 이 두 파라미터는 복소 가우시안 확률밀도 p(Ŝ|X,Θ)를 정의한다. 2) 정의된 확률밀도에서 K개의 샘플 Ŝ(k) 를 추출한다. 샘플링은 마스크가 0~1 구간에 머물도록 복소 평면에서 직접 수행된다. 3) 각 샘플에 대해 OSQA 점수 B(Ŝ(k),X)를 계산한다. PESQ, STOI 등은 일반적으로 전체 utterance 단위로 평가되므로, 한 utterance에 대해 K개의 샘플을 모두 사용해 평균 점수를 구한다. 4) 로그‑가능도 ∇Θ ln p(Ŝ(k)|X,Θ)와 B(Ŝ(k),X)를 곱해 평균함으로써 ∇Θ J(Θ) 를 추정한다. 이때 점수 정규화(score normalization)를 적용해 B값의 평균을 0, 표준편차를 1로 맞추어 그래디언트 분산을 감소시킨다. 5) 모든 훈련 utterance에 대해 위 과정을 반복하고, 얻어진 그래디언트를 사용해 파라미터 Θ를 업데이트한다. 수식적으로는 기대값 E_{Ŝ,X}

OSQA 점수를 직접 최적화하는 DNN 기반 소스 강화 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기