다중 샘플링 레이트 음성 품질 예측을 위한 스펙트럼 강화 자기지도 학습
본 논문은 16 kHz에만 사전학습된 기존 SSL 모델이 고주파 정보를 놓치는 문제를 해결하고자, 48 kHz까지의 고주파 정보를 보존하는 스펙트럼‑보강 병렬 구조와 두 단계 사전학습·미세조정 전략을 제안한다. 대규모 48 kHz NISQA 데이터로 사전학습하고, 제한된 다중 레이트 MOS 데이터로 미세조정함으로써 다양한 샘플링 레이트와 언어에 걸친 일반화 성능을 크게 향상시켰다.
저자: Fengyuan Cao, Xinyu Liang, Fredrik Cumlin
본 연구는 다중 샘플링 레이트(16 kHz‑48 kHz) 음성의 품질을 인간 청취자 평균 평점(MOS)으로 예측하는 비침입형 음성 품질 평가(SQA) 시스템을 설계하는 데 직면한 세 가지 주요 문제를 다룬다. 첫째, 현재 널리 사용되는 자기지도 학습(SSL) 기반 모델은 16 kHz에만 사전학습돼 고주파 정보를 손실한다. 둘째, 다중 레이트 MOS 라벨이 있는 데이터셋이 매우 제한적이며, 대부분 단일 레이트(보통 16 kHz)로 수집된다. 셋째, 데이터셋 간 MOS 스케일이 레인지‑이퀄라이징 바이어스로 인해 정렬되지 않아 직접 결합 학습이 어려운 상황이다.
이를 해결하기 위해 저자들은 두 가지 핵심 아이디어를 제안한다. 첫 번째는 **스펙트럼‑보강 병렬 구조**이다. 입력 음성을 두 갈래로 처리한다. 16 kHz로 다운샘플링한 뒤 SSL 모델(wav2vec 2.0‑XLSR‑2B)의 9번째 레이어 출력을 추출하는 ‘SSL 경로’와, 원본을 48 kHz로 업샘플링해 STFT 기반 로그 스펙트럼을 만든 뒤 2D 컨볼루션으로 특징을 추출하는 ‘스펙트럼 경로’를 병행한다. 두 경로의 특성은 전역 풀링 후 연결되어 MOS 예측기에 입력된다. 이렇게 하면 SSL이 제공하는 강인한 저주파 표현과 스펙트럼 경로가 포착하는 고주파 텍스처를 동시에 활용할 수 있다.
두 번째는 **두 단계 학습 전략**이다. 1) 대규모 48 kHz NISQA 데이터(≈11 k 샘플)로 전체 모델을 30 epoch 사전학습한다. 이 단계에서 특히 스펙트럼 경로가 다양한 고주파 패턴을 학습한다. 2) 사전학습된 모델을 제한된 다중 레이트 AudioMOS 데이터(320 clip)로 3 epoch만 미세조정한다. 짧은 미세조정은 레인지‑이퀄라이징 바이어스와 도메인 차이를 보정하면서도 과적합을 방지한다.
실험은 다음과 같이 구성되었다. 1) 데이터셋: AudioMOS(16/24/48 kHz, 320 train + 80 val), NISQA(48 kHz, 11 k train + 2.7 k val) 및 외부 테스트셋(TEN‑cent, TCD‑VoIP, NISQA‑TEST‑FOR, P501, LIVE‑TALK 등). 2) 평가 지표: 평균 제곱 오차(MSE), 선형 상관계수(LCC), 스피어만 순위 상관계수(SRCC). 3) 비교 대상: 기존 SSL‑Layer‑MOS와 제안 SA‑SSL‑MOS, 각각 단일 데이터셋 학습 및 두 단계 학습 조합.
주요 결과는 다음과 같다. (1) AudioMOS 테스트에서 두 단계 학습을 적용한 SA‑SSL‑MOS는 utterance‑level MSE 0.377, LCC 0.848, SRCC 0.750을 기록해, 동일 조건의 SSL‑Layer‑MOS보다 전반적인 정확도와 상관성을 크게 개선했다. (2) NISQA 전용 학습만으로도 높은 LCC(0.789)와 SRCC(0.721)를 달성했지만, MOS 스케일 차이로 MSE가 상승했다. (3) 두 단계 학습을 적용하면 NISQA와 AudioMOS 간 도메인 불일치를 효과적으로 완화해, 외부 테스트셋에서도 SA‑SSL‑MOS가 일관된 성능 향상을 보였다(예: NISQA‑TEST‑FOR에서 MSE 0.268, LCC 0.901, SRCC 0.901). (4) 스펙트럼 경로는 고주파가 중요한 48 kHz 녹음에서 특히 유리했으며, 고주파 손실이 큰 저해상도 데이터에서는 상대적으로 이점이 감소한다는 점이 관찰되었다.
한계점으로는 스펙트럼 경로가 추가 파라미터와 연산량을 요구해, 데이터가 극히 적은 상황에서 수렴 속도가 느려질 수 있다는 점이다. 또한, 현재는 48 kHz까지의 고주파만을 활용하고 있어, 96 kHz 이상의 초고해상도 녹음에 대한 확장성은 검증되지 않았다. 향후 연구에서는 경량화된 스펙트럼 인코더 설계, 멀티‑레이트 데이터 증강, 그리고 고해상도 음성에 대한 사전학습을 통해 모델 효율성과 일반화를 동시에 강화할 수 있을 것이다.
결론적으로, SA‑SSL‑MOS는 고주파 정보를 보존하는 스펙트럼 보강과 두 단계 학습을 결합함으로써, 제한된 다중 레이트 MOS 데이터에서도 강인하고 일반화 가능한 음성 품질 예측 모델을 구현한다는 점에서 다중 샘플링 레이트 SQA 분야에 중요한 진전을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기