오디오 데이터 코딩을 위한 확장 제로 구역 스칼라 양자화

본 논문은 MDCT/MLT 변환 계수의 확률 모델로 일반화 가우시안 분포(GGD)를 채택하고, 이를 기반으로 확장 제로 구역(EZZ) 스칼라 양자화를 설계한다. 이론적 레이트‑디스토션 한계와 실제 데이터에서 측정한 레이트‑디스토션을 비교하여 GGD가 변환 계수에 적합함을 확인한다. EZZ 양자화는 최적 스칼라 양자화와 거의 동일한 효율을 보이며, 적은 부가 정보(양자화 스텝과 제로 구역 폭)만으로 적응형 구현이 가능함을 실험적으로 입증한다.

저자: Boris D. Kudryashov, Anton V. Porov, Eunmi L. Oh

본 논문은 현대 오디오 코덱에서 널리 사용되는 변환 기반 구조—특히 MLT와 MDCT 필터뱅크—의 출력 계수를 효율적으로 양자화하기 위한 스칼라 양자화 기법을 제시한다. 서론에서는 코덱의 전체 파이프라인을 설명하고, 양자화 모듈이 전체 비트 할당과 부호화 효율에 미치는 영향을 강조한다. 벡터 양자화는 이론적으로 높은 코딩 이득을 제공하지만, 차원 수가 증가함에 따라 메모리와 연산 복잡도가 기하급수적으로 증가한다는 실용적 한계가 있다. 따라서 저자는 스칼라 양자화가 복잡도·적응성 측면에서 우수하다고 주장한다. 두 번째 섹션에서는 변환 계수의 통계적 모델링을 다룬다. 각 서브밴드의 계수를 독립이고 동일하게 분포하는 확률변수로 가정하고, 일반화 가우시안 분포(GGD) f(x;α,σ)= (α/(2βΓ(1/α)))·exp

오디오 데이터 코딩을 위한 확장 제로 구역 스칼라 양자화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기