양자화 인식 계층형 신경 코덱을 활용한 음성 딥페이크 탐지

본 논문은 신경 오디오 코덱의 잔차 벡터 양자화(RVQ) 구조를 딥페이크 탐지에 활용하는 새로운 프레임워크를 제시한다. 기존 연구는 주로 SSL 기반 연속 특징에 의존하거나, 코덱을 단순히 추가적인 연속 특징으로만 사용해 왔다. 그러나 RVQ는 여러 단계의 코드북을 통해 입력 음성을 점진적으로 정밀화하는 계층적 구조를 가지고 있다. 초기 양자화 단계는 음성의 전반적인 스펙트럼 형태와 같은 거친 정보를, 후속 단계는 고주파 디테일이나 미세 잔차와 같은 정교한 정보를 담는다. 딥페이크 합성 과정에서 발생하는 비정상적인 아티팩트는 이러한 단계 중 특정 레벨에 집중될 가능성이 높다. 논문은 먼저 “Quantizer Mean Pooling”(Method 1)이라는 단순 평균 방식을 baseline으로 설정한다. 이는 모든 양자화 레벨에 동일 가중치를 부여하는 방식으로, 실제 포렌식 신호가 레벨마다 비균등하게 분포한다는 가정을 무시한다. 이를 개선하기 위해 “Quantizer‑Aware Dimension‑wise Static Aggregation”(QAF‑Static, Method 2)를 제안한다. QAF‑Static은 각 양자화 레벨 q와 임베딩 차원 d에 대해 학습 가능한 가중치 행렬 W∈ℝ^{Q×D}를 정의하고, 온도 파라미터 τ를 이용해 소프트맥스 정규화를 수행한다. 이렇게 얻어진 α_{q,d}는 차원별로 가장 유용한 양자화 레벨을 선택하도록 하는 채널‑와이즈 어텐션 역할을 한다. 중요한 점은 이 가중치가 입력에 의존하지 않는 정적 파라미터이므로 학습이 안정적이며, 추가 연산 비용이 거의 없다는 것이다. 코덱 스트림은 Facebook EnCodec 모델을 사용한다. EnCodec은 8개의 양자화 레벨(Q=8), 각 코드북 크기 1024, 임베딩 차원 128을 가진다. 양자화 인덱스는 학습 가능한 임베딩으로 매핑된 뒤 QAF‑Static에 의해 가중합된다. SSL 스트림은 대규모 사전학습된 WavLM‑Large를 사용하며, 첫 12개의 트랜스포머 레이어를 Attentive Merging(AttM)으로 결합한다. 중요한 설계 선택은 SSL 백본을 완전히 고정(freeze)하고, 코덱 가중치와 최종 분류기만 학습한다는 점이다. 이는 전체 파라미터 중 약 4.4%만 추가 학습한다는 의미이며, 경량화와 파라미터 효율성을 동시에 달성한다. 융합 단계에서는 두 스트림을 시간 차원에서 동일하게 정렬한 뒤, 단순히 연결(concatenation)하고 선형 변환을 적용한다. 이후 단일 LSTM 레이어와 선형 분류기로 최종 판정을 수행한다. 이 “Late Fusion” 설계는 SSL의 장기 문맥 정보와 코덱의 잔차 계층 정보를 독립적으로 유지하면서도 상호 보완적인 특성을 활용한다. 실험은 ASVspoof 2019 Logical Access(19LA)와 최신 ASVspoof 5 데이터셋을 대상으로 진행되었다. 평가 지표는 Equal Error Rate(EER)이며, 기준선으로 AttM 기반 SSL 모델(EER 0.65% for 19LA, 6.60% for ASVspoof 5)과 기존 공개 베이스라인을 사용하였다. 결과는 다음과 같다. - QAF‑Static(코덱 고정, SSL 고정, Method 1) → 0.53% (19LA), 6.01% (ASVspoof 5) - QAF‑Static(코덱 고정, SSL 고정, Method 2) → 0.44% (19LA), 6.04% (ASVspoof 5) - QAF‑Static(코덱 미세조정, SSL 고정, Method 2) → 0.35% (19LA, 46.2% 상대 개선), 5.68% (ASVspoof 5, 13.9% 개선) 특히 코덱을 미세조정했을 때 19LA에서 기존 최첨단 MoLEx(0.44% EER)보다 0.09%p 낮은 0.35%를 기록, 상대 46.2% 개선을 달성했다. ASVspoof 5에서도 동일한 경향이 관찰되었으며, 코덱만 사용한 경우 성능이 낮지만 SSL과 결합하면 뚜렷한 시너지 효과가 나타난다. 학습된 가중치 α_{q,d}를 시각화한 결과, 초기 양자화 레벨(특히 1번째 레벨)이 전체 차원에서 가장 높은 기여도를 보였으며, 중간 레벨은 상대적으로 낮은 가중치를, 후반 레벨은 특정 차원에서 선택적으로 높은 가중치를 부여하는 패턴을 보였다. 이는 “거친 구조 → 세밀한 잔차”라는 RVQ의 물리적 의미와 일치한다. 결론적으로, 본 연구는 (1) RVQ 계층이 딥페이크 포렌식에 유의미한 정보를 제공한다는 실증적 증거, (2) 정적 가중치 기반의 양자화 레벨 선택이 복잡한 비선형 어텐션 없이도 충분히 효과적임, (3) SSL과 코덱의 서로 다른 계층적 특성을 결합함으로써 파라미터 효율성을 유지하면서도 최신 SSL‑기반 탐지기와 동등하거나 우수한 성능을 달성한다는 세 가지 주요 기여를 제시한다. 향후 연구에서는 다양한 코덱 아키텍처와 양자화 레벨 수에 대한 확장성 검증, 그리고 실시간 스트리밍 환경에서의 경량화 적용 가능성을 탐색할 여지가 있다.

양자화 인식 계층형 신경 코덱을 활용한 음성 딥페이크 탐지

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기