다중목표 반복 확대 공격으로 ASR 효율성 및 정확도 저하
본 논문은 대규모 음성인식 모델 Whisper에 대한 새로운 적대적 공격인 MORE를 제안한다. MORE는 정확도 저하와 동시에 출력 길이를 인위적으로 늘려 추론 비용을 급증시키는 두 목표를 계층적 단계(Repulsion‑Anchoring)로 최적화한다. 핵심은 EOS 억제와 주기적 복제 목표(REDO)를 결합해 모델을 반복적인 긴 텍스트를 생성하도록 유도하는 것이다. 실험 결과, 기존 공격 대비 전사 오류는 유지하면서도 전사 길이를 크게 늘려…
저자: Xiaoxue Gao, Zexin Li, Yiming Chen
본 논문은 최신 대규모 자동 음성인식(ASR) 모델, 특히 OpenAI Whisper 계열이 실제 서비스에 널리 적용되는 상황에서, 기존 연구가 주로 전사 정확도 감소에만 초점을 맞추어 왔던 한계를 지적한다. 실제 운영 환경에서는 입력에 미세한 교란이 발생해도 실시간 응답성을 유지해야 하며, 공격자가 의도적으로 디코딩 과정을 길게 만들어 연산 비용을 급증시킬 경우 서비스 거부(DoS) 공격이 가능하다. 이러한 “효율성 취약성”을 체계적으로 조사하고, 정확도와 효율성을 동시에 악용하는 새로운 공격 방법을 제시하는 것이 논문의 주요 목표이다.
**관련 연구**에서는 기존 음성 공격이 MFCC 변조, 초음파 공격, 목표 명령 삽입 등 다양한 방식으로 정확도를 떨어뜨리는 데 집중했으며, 대규모 Transformer 기반 모델에 대한 연구는 아직 초기 단계에 머물러 있다. 효율성 측면에서는 SlothSpeech가 단일 목표(출력 길이 증가)만을 다루었고, 정확도와 효율성을 동시에 고려한 연구는 존재하지 않는다.
**문제 정의**에서는 입력 스펙트럼 X와 정답 전사 Y를 가지고, 공격자는 제한된 ℓ∞ 노이즈 δ(ε) 안에서 두 가지 목적을 동시에 최적화한다. 첫 번째는 WER을 최대화해 전사 오류를 크게 만들고, 두 번째는 출력 토큰 수 |f(X+δ)|를 늘려 연산량을 증가시키는 것이다. 이때 SNR과 ℓ∞ 제약을 동시에 적용해 인간 청취에 거의 감지되지 않도록 설계한다.
**방법론 – MORE**는 두 단계로 구성된 계층적 최적화 프레임워크이다.
1. **Repulsion 단계(정확도 공격)**: 기존 CE 기반 손실 L_acc = −CE(f(X+δ),Y)를 최대화해 모델을 정답 전사에서 멀어지게 만든다. 이 단계는 넓은 그래디언트 분포를 활용해 다양한 오류를 유도한다.
2. **Anchoring 단계(효율성 공격)**: Repulsion 단계에서 얻은 δ를 초기값으로 사용해 두 개의 서브 손실을 결합한다.
- **EOS 억제(L_EOS)**: 마지막 토큰에서 EOS 확률을 감소시키고, 두 번째로 높은 토큰(z)의 확률을 증가시켜 모델이 조기에 종료되지 않도록 만든다.
- **REDO(Repeated Encouragement Doubling Objective)**: 일정 주기 D마다 현재 디코딩된 시퀀스를 복제해 목표 시퀀스를 구성하고, CE 손실 L_REDO로 모델이 이 복제된 시퀀스를 지속적으로 생성하도록 유도한다. 이 과정은 Transformer의 자체 반복 루프를 활용해 출력 길이를 기하급수적으로 늘린다.
두 서브 손실을 합친 L_eff = L_EOS + L_REDO를 최적화함으로써, 모델은 높은 오류율을 유지하면서도 매우 긴 전사를 생성한다. 비대칭 인터리빙 기법을 통해 매 D 스텝마다 목표 시퀀스를 업데이트해 장기 최적화의 불안정을 완화한다.
**실험**에서는 Whisper‑tiny, Whisper‑base, Whisper‑large‑V2 등 네 가지 모델에 대해 동일한 ε(=0.002)와 SNR(≈30 dB) 조건에서 공격을 수행했다. Baseline으로는 PGD, MI‑FGSM, VMI‑FGSM, SlothSpeech 등을 사용했으며, 평가 지표는 WER, 평균 출력 길이, 디코딩 시간, 메모리 사용량, 그리고 청각적 감지율이다. 결과는 다음과 같다.
- **WER**: MORE는 대부분의 경우 70 % 이상 유지하면서, Baseline보다 5~10 % 높은 오류를 달성했다.
- **출력 길이**: 평균 토큰 수가 기존 공격 대비 2.3배(Whisper‑tiny)에서 4.8배(Whisper‑large‑V2)까지 증가했다.
- **디코딩 시간/메모리**: 길어진 시퀀스로 인해 추론 시간은 평균 3.5배, 메모리 사용량은 2.9배 상승했다.
- **청각적 감지**: 인간 청취 실험에서 92 %의 참가자가 교란을 감지하지 못했으며, 이는 기존 공격과 동등하거나 더 낮은 수준이다.
**분석**에서는 REDO가 단순 EOS 억제보다 훨씬 안정적인 길이 증가를 제공함을 확인했다. EOS 억제만 적용하면 모델이 무작위 토큰을 생성해 의미가 파괴되지만, REDO는 의미적 일관성을 유지하면서도 반복을 유도해 공격이 더 예측 가능하고 방어 측면에서 탐지하기 어려워진다. 또한, 계층적 접근이 없을 경우 정확도와 효율성 손실이 서로 경쟁해 최적화가 수렴하지 않거나 한쪽 목표만 달성되는 현상이 관찰되었다.
**결론 및 시사점**에서는 MORE가 정확도와 효율성을 동시에 위협하는 최초의 다중목표 적대적 공격임을 강조한다. 실시간 음성 서비스, 음성 기반 인증, 의료 기록 자동화 등 다양한 응용 분야에서 추론 비용까지 고려한 방어 전략이 필요함을 제시한다. 향후 연구 방향으로는 방어 측면에서 EOS 토큰의 확률 분포를 동적으로 조정하거나, REDO와 유사한 반복 루프를 탐지하는 메타‑학습 기반 방법을 제안한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기