ScoreDec 고품질 위상 보존 오디오 코덱과 확장 가능한 점수 기반 확산 후처리
ScoreDec은 기존 E2E 신경 오디오 코덱인 AudioDec에 복소 스펙트럼 영역의 점수 기반 확산 후처리(SPF)를 결합해, 24 kbps 비트레이트에서 원본 위상을 거의 완벽히 보존하면서 인간 수준의 자연스러움을 구현한다. GAN 훈련을 배제하고 스펙트럼 손실과 점수‑매칭 손실만으로 학습한다.
저자: Yi-Chiao Wu, Dejan Marković, Steven Krenn
**1. 서론**
오디오 신호는 높은 시간 해상도를 가지며, CD 품질(44.1 kHz, 16 bit)은 초당 1.4 Mbps의 전송·저장 비용을 요구한다. 전통적인 손실 코덱은 주기성에 기반한 신호 모델링과 손수 설계된 DSP 블록을 활용해 비트레이트를 크게 낮추지만, 설계 복잡성과 모델링 한계로 인해 자연음과의 격차가 존재한다. 최근 파형‑도메인 E2E 신경 코덱(예: AudioDec, SoundStream 등)은 강력한 표현력을 바탕으로 3–8 kbps에서도 높은 품질을 달성했지만, (i) 비트레이트가 20–30 kbps 수준으로 상승하면 품질 포화, (ii) GAN 기반 학습에 의존해 위상 정보를 직접 모델링하지 못함, (iii) GAN 훈련의 불안정성과 불투명성으로 인한 실용성 저하라는 문제점이 남아 있다.
**2. 배경**
AudioDec는 인코더‑양자화‑디코더 구조를 갖는 신경 코덱으로, 첫 단계에서는 멜 스펙트럼 손실만으로 빠르게 사전 학습하고, 두 번째 단계에서 디코더와 다중 스케일·다중 주기 판별기(MSD, MPD)를 이용해 GAN 기반 파인 튜닝을 수행한다. 반면, 점수 기반 확산 모델(SGM)은 데이터 분포를 점진적으로 노이즈화하고, 역방향 확산 과정에서 점수 함수(로그 확률의 기울기)를 추정해 원본을 복원한다. 특히 SGMSE는 복소 스펙트럼에 직접 적용돼 위상 복원에 뛰어난 성능을 보였다.
**3. 방법**
ScoreDec은 두 개의 모듈로 구성된다.
- **(a) 대칭 AudioDec (symAD)**: 인코더와 디코더가 대칭 구조를 이루며, 멜 손실만으로 24 kbps 비트스트림을 학습한다.
- **(b) 점수 기반 확산 후처리(SPF)**: symAD가 복원한 파형을 STFT로 변환해 복소 스펙트럼 x_c와 ˆx_c(코덱 출력)를 얻는다. 두 스펙트럼에 대해 진폭 컴팩싱 x_a = β|x_c|^α e^{j∠x_c}를 적용해 에너지 편향을 완화하고, 이를 입력으로 SGMSE와 동일한 OU‑VE SDE(γ, σ_min, σ_max)와 역방향 SDE를 사용한다. 점수 추정 네트워크 s_θ는 복소 실수 두 채널을 동시에 처리하며, 점수‑매칭 손실(식 7)으로 학습한다. 역방향 샘플링은 Predictor‑Corrector(PC) 스킴을 30 스텝 동안 수행하고, 최종 복소 스펙트럼을 역변조(식 10) 후 iSTFT로 변환한다.
핵심 설계 포인트는 (1) 위상 정보를 직접 다루는 복소 스펙트럼 영역, (2) GAN 없이 스펙트럼·위상 손실을 모두 만족시키는 점수‑매칭 목표, (3) 기존 코덱과 독립적인 모듈식 구조로, Opus와 같은 전통 DSP 코덱에도 동일 SPF를 적용 가능하도록 설계했다.
**4. 실험**
- **데이터**: 48 kHz VCTK‑Valentini 데이터셋(84명 훈련, 2명 테스트)
- **베이스라인**: symAD, AudioDec, HiFi‑GAN 기반 AudioDec, Opus(24 kbps)
- **평가 지표**: Wav MSE(10⁻³ 단위), SI‑SDR(dB), STOI, PESQ(16 kHz 다운샘플 후)
- **결과**: ScoreDec은 Wav MSE를 0.7 × 10⁻³(기존 8.5 × 10⁻³)으로 10배 이상 감소, SI‑SDR을 8.17 dB(기존 -0.5 dB)로 크게 향상시켰다. STOI와 PESQ 역시 각각 0.97, 3.68으로 최고 수준을 기록했다. Opus에 SPF를 적용한 경우에도 Wav MSE 0.2 × 10⁻³, SI‑SDR 16.20 dB 등 유사한 개선을 보였다.
- **청각 평가**: MOS 실험에서 ScoreDec은 “자연스러운” 수준을 달성했으며, 특히 위상 보존에 따른 공간감·방향성 재현이 눈에 띄게 개선되었다.
**5. 논의 및 결론**
ScoreDec은 (i) GAN 없이도 고품질 복원, (ii) 복소 스펙트럼에서 직접 위상 복원, (iii) 다른 코덱에 플러그‑인 가능한 일반화된 후처리 모듈이라는 세 가지 장점을 제공한다. 점수 기반 확산 모델이 위상 복원에 강력함을 입증했으며, 향후 실시간 구현을 위한 샘플링 단계 감소, 다채널(스테레오·서라운드) 확장, 음악·효과음 등 비음성 영역 적용이 연구 과제로 남는다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기