Whisper 기반 차세대 토큰 예측으로 딥페이크 단어 탐지

본 논문은 사전 학습된 Whisper ASR 모델에 최소한의 토큰 삽입만으로 합성 단어를 식별하도록 미세조정하는 방법을 제안한다. vocoder로 만든 부분 합성 데이터를 활용해 비용을 절감하고, 인‑도메인에서는 낮은 오류율을, 아웃‑오브‑도메인에서는 기존 ResNet 기반 탐지기와 동등한 성능을 보인다.

저자: Hoan My Tran, Xin Wang, Wanying Ge

Whisper 기반 차세대 토큰 예측으로 딥페이크 단어 탐지
본 논문은 딥페이크 음성에서 특정 단어만을 합성한 경우, 해당 합성 단어를 정확히 식별하면서 동시에 전체 음성을 텍스트로 전사하는 방법을 제안한다. 기존 연구들은 딥페이크 전체 여부를 판단하거나, 별도의 신경망을 이용해 합성 구간을 탐지했지만, 모델 구조가 복잡하고 추가 연산·스토리지 비용이 발생했다. 저자들은 Whisper라는 사전 학습된 대형 ASR 모델을 그대로 사용하면서, 학습 데이터에 두 개의 특수 토큰(, )을 삽입하는 간단한 미세조정 방식을 고안했다. Whisper는 토큰 시퀀스를 다음 토큰 예측 방식으로 생성하므로, 사이에 위치한 토큰을 “합성 단어”로 간주하도록 학습된다. 이를 위해 기존 Whisper 토크나이저에 거의 사용되지 않는 심볼(‘!!!!!!’, ‘~~~’)을 재활용했으며, 모델 아키텍처 자체를 변경하거나 새로운 손실 함수를 도입할 필요가 없었다. 데이터 구축은 두 축으로 진행되었다. 첫 번째는 실제 TTS 시스템(JETS, YourTTS, XTTS, SoVITS, CosyVoice, ElevenLab)으로 합성 단어를 만든 Ft.TTS이며, 두 번째는 다양한 vocoder(HiFi‑GAN, WaveGlow, Hn‑NSF, Hn‑NSF+GAN, WORLD, Griffin‑Lim)를 사용해 기존 오디오북의 일부 구간을 재합성한 Ft.Voc이다. vocoder 기반 방법은 텍스트나 별도 음성 입력이 필요 없으므로 라벨링 비용을 크게 낮춘다. 두 데이터를 50:50 비율로 섞은 Ft.V+T도 실험에 포함했다. 실험은 Whisper Large(v3) 모델을 5 epoch, 학습률 1e‑5, 배치 8로 미세조정했으며, 비교 대상으로 ResNet‑152 기반 합성 단어 탐지기를 별도로 학습시켰다. 평가 데이터는 인‑도메인(E.Voc, E.TTS)과 아웃‑오브‑도메인(E.AV1M, E.PE)으로 구분했으며, 각 데이터는 다국어(영·프·독·이탈·스페)와 다양한 합성 방식(신경망 기반 TTS, vocoder, LLM 기반 편집)으로 구성되었다. 인‑도메인 결과는 매우 긍정적이다. Ft.Voc로 미세조정한 Whisper는 E.Voc에서 WER 0.87%를 기록했으며, 합성 단어 탐지에서는 FAR 7.22%, FRR 0.52%로 ResNet(7.15%/3.81%)과 동등하거나 더 나은 성능을 보였다. Ft.TTS로 미세조정한 모델도 E.TTS에서 WER 2.20%, FAR 1.38%, FRR 1.79%를 달성해 사전 학습 모델(8.13% WER)보다 크게 개선되었다. 하지만 도메인·합성 방식이 일치하지 않을 경우 성능이 급격히 저하되었다. Ft.Voc→E.TTS에서는 FAR가 76%에 달해 대부분의 합성 단어를 오탐했으며, Ft.TTS→E.Voc에서는 FRR이 80% 이상으로 실제 합성 단어를 거의 놓쳤다. 특히 언어가 영어가 아닌 경우(Ft.TTS 훈련 후 영어 외 언어 테스트) FRR이 90%에 육박했다. 단어 길이 분석에서도 짧은 합성 단어(≤200 ms)일수록 오류율이 높아지는 경향이 확인되었다. 아웃‑오브‑도메인 테스트(E.AV1M, E.PE)에서는 Whisper가 ResNet과 비슷한 수준을 유지했지만, 전체적으로는 두 모델 모두 성능이 감소했다. 이는 훈련에 사용된 vocoder와 TTS 시스템이 실제 현장에서 사용되는 최신 LLM 기반 편집(VoiceCraft, SSR‑speech)과 차이가 크기 때문이다. 결론적으로, Whisper에 최소한의 토큰 삽입만으로 합성 단어 탐지를 통합할 수 있다는 점은 비용 효율적인 해결책을 제시한다. vocoder를 이용한 데이터 생성은 라벨링 비용을 크게 절감하면서도 실용적인 성능을 제공한다. 그러나 현재 방법은 언어 다양성, 합성 방식 차이, 짧은 구간 처리 등에 취약하므로, 향후 연구에서는 (1) 다국어·다양한 합성 모델을 포괄하는 대규모 미세조정 데이터 구축, (2) ASR와 탐지 손실을 동시에 최적화하는 멀티태스크 학습, (3) 토큰 레벨이 아닌 프레임 레벨의 정밀 탐지를 위한 추가 메커니즘 도입 등을 통해 일반화 능력을 강화할 필요가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기