실제 환경에서도 통하는 강인한 오디오 적대적 예제 생성법

본 논문은 스피커·마이크·라디오 등 물리적 재생·녹음 환경에서 발생하는 reverberation과 잡음을 고려해, 변환을 시뮬레이션하고 최적화 과정에 포함시킴으로써 DeepSpeech와 같은 순환 신경망 기반 음성 인식 모델을 공격할 수 있는 강인한 오디오 적대적 예제를 생성하는 방법을 제안한다. 제안 기법은 밴드패스 필터, 임펄스 응답 컨볼루션, 백색 가우시안 노이즈를 통합해 물리적 공격 성공률 100%를 달성했으며, 인간 청취 실험에서도 대…

저자: Hiromu Yakura, Jun Sakuma

실제 환경에서도 통하는 강인한 오디오 적대적 예제 생성법
본 논문은 “Robust Audio Adversarial Example for a Physical Attack”이라는 제목 아래, 물리적 환경에서 음성 인식 시스템을 공격할 수 있는 강인한 오디오 적대적 예제를 생성하는 새로운 방법을 제시한다. 서론에서는 딥러닝 기반 음성 인식 모델이 상업 서비스에 널리 사용되고 있음에도 불구하고, 기존 연구가 주로 디지털 입력(직접 파형을 모델에 전달)만을 대상으로 했으며, 실제 스피커·마이크를 통한 over‑the‑air 공격은 reverberation과 잡음 때문에 실패한다는 점을 강조한다. 이러한 물리적 공격의 위험성을 강조하며, 이미지 분야에서 물리적 변형을 시뮬레이션해 강인성을 확보한 연구(Athalye et al., 2018)를 오디오에 적용하고자 하는 동기를 제시한다. 관련 연구 섹션에서는 기존의 black‑box와 white‑box 접근을 정리한다. Black‑box에서는 유전 알고리즘이나 gradient‑free 방법을 사용해 짧은 명령어(두 단어 이하)만을 목표로 했고, 실제 환경에서의 적용은 제한적이었다. White‑box에서는 Carlini와 Wagner(2018)가 DeepSpeech에 대해 직접 파형을 최적화했지만, 이는 직접 입력에만 유효했고 over‑the‑air에서는 전혀 성공하지 못했다. 또한, Kaldi와 같은 전통적 모델에 대한 공격은 있었지만, 최신 순환 신경망 기반 모델에 대한 물리적 공격은 아직 없었다. 본 논문의 주요 기여는 두 가지이다. 첫째, 스피커·마이크·라디오 등 물리적 재생·녹음 과정에서 발생하는 변형을 시뮬레이션하고 이를 최적화 과정에 포함시켜, 순환 신경망 기반 음성 인식 모델(DeepSpeech)을 over‑the‑air 조건에서도 100% 공격 성공률을 달성한 점이다. 둘째, 인간 청취 실험을 통해 대상 문구가 전혀 인지되지 않음을 확인함으로써, 실질적인 위협성을 입증했다. 기술적 배경으로는 적대적 예제 정의와 기존 이미지 물리적 공격 방식을 소개한다. 이미지에서는 변환 집합 T(크기 변환, 회전, 밝기 변동, 잡음)를 기대값 형태로 최적화에 포함시켜 물리적 인쇄·촬영 후에도 성공하도록 했다. 오디오에서는 MFCC를 특징 추출에 사용하므로, 직접적인 이미지 방식 적용이 어려워 새로운 변환 모델링이 필요했다. 제안 방법은 세 가지 핵심 변환을 포함한다. 1) 밴드패스 필터(BPF): 인간 청각 범위(20 Hz~20 kHz)와 스피커·마이크의 주파수 제한을 고려해 1 kHz~4 kHz 대역만을 허용, 이는 파형의 변형이 재생·녹음 과정에서 차단되지 않도록 한다. 2) 임펄스 응답(Impulse Response): 다양한 실내·실외 환경에서 측정된 임펄스 응답 집합 H를 무작위 샘플링해 입력 파형에 컨볼루션함으로써 reverberation을 시뮬레이션한다. 3) 백색 가우시안 노이즈(White Gaussian Noise): N(0,σ²)를 추가해 녹음 장치와 환경 잡음에 대한 내성을 강화한다. 최적화 목표는 기존 Carlini‑Wagner 방식과 동일하게 MFCC 기반 손실 함수와 L2 정규화 항을 사용하고, 기대값을 샘플 평균으로 근사한다. 최적화 알고리즘은 Adam이며, 구현은 TensorFlow 2로 공개한다. 평가에서는 두 종류의 원본 오디오(바흐의 첼로곡, Owl City의 보컬곡)와 세 가지 목표 문구(“hello world”, “open the door”, “ok google”)를 사용했다. 실험 시나리오는 (A) 스피커·마이크를 통한 직접 재생·녹음, (B) FM 라디오 방송을 통한 전파 두 경우로 나뉘었다. 각 경우에 대해 500개의 중간 파형을 10번씩 재생·녹음해 총 18시간 이상의 실험을 수행했으며, 최종 적대적 파형을 DeepSpeech에 입력했을 때 100% 성공률을 기록했다. 청취 실험에서는 30명 이상의 피험자가 대상 문구를 전혀 인지하지 못했고, 원본 음악만 들린다고 판단했다. 이는 인간 인지와 기계 인식 사이의 차이를 이용한 성공적인 “숨은 공격”임을 보여준다. 논의에서는 제안 방법이 물리적 환경 변형을 효과적으로 모델링했지만, 임펄스 응답 집합 H와 노이즈 파라미터 σ를 사전에 수집·조정해야 하는 비용이 존재함을 인정한다. 또한, 특정 스피커·마이크 조합에 최적화된 파라미터가 다른 장비에 그대로 적용되지 않을 가능성을 언급한다. 향후 연구 방향으로는 자동화된 환경 추정, 적응형 최적화, 그리고 방어 측면에서 이러한 강인한 적대적 예제를 활용한 adversarial training을 제안한다. 결론적으로, 본 논문은 물리적 세계에서도 적용 가능한 강인한 오디오 적대적 예제 생성 프레임워크를 최초로 제시했으며, 실제 음성 인식 서비스에 대한 새로운 보안 위협을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기