물리 세계에서도 작동하는 적대적 예시

본 논문은 머신러닝, 특히 딥러닝 기반 이미지 분류기가 물리적 세계에서 입력을 받는 경우에도 적대적 예시(Adversarial Examples)에 취약함을 실증한다. 기존 연구들은 대부분 디지털 이미지 파일을 직접 모델에 입력하는 상황을 가정했으며, 물리적 변환(프린팅·촬영·조명 등)이 교란을 무력화할 수 있다고 추정했다. 이를 검증하기 위해 저자들은 Google Brain과 OpenAI 소속 연구진이 Inception‑v3 모델을 대상으로 세 가지 적대적 생성 기법을 적용하였다. 첫 번째는 FGSM으로, 입력 이미지에 L∞ 제약 하에 부호( sign) 방향으로 교란을 한 번 적용한다. 두 번째는 Basic Iterative Method으로, FGSM을 작은 스텝(α = 1)으로 여러 번 반복해 교란을 누적한다. 세 번째는 Least‑Likely Class 공격으로, 모델이 가장 낮은 확률을 부여한 클래스를 목표로 삼아 교란을 최적화한다. 각 방법은 ε = 2부터 128까지 다양한 크기의 교란을 적용해 50 000장의 ImageNet 검증 이미지에 대해 Top‑1 및 Top‑5 정확도를 측정하였다. 결과는 다음과 같다. FGSM은 ε ≥ 32에서 거의 완전한 파괴를 일으키지만, ε ≤ 16에서도 Top‑1 정확도를 절반 이하로 낮춘다. Basic Iterative는 작은 ε(≤ 48)에서 높은 오분류율을 유지하고, Least‑Likely Class는 ε = 8 정도에서도 대부분의 이미지를 전혀 다른 클래스로 전환한다. 물리적 실험 단계에서는 위에서 생성한 적대적 이미지를 고해상도 프린터로 출력하고, Android 스마트폰 카메라를 이용해 촬영하였다. 촬영된 이미지는 TensorFlow Camera Demo 앱에 입력되어 Inception‑v3 모델이 분류를 수행한다. 여기서 저자들은 “파괴율”이라는 지표를 정의해, 원본 적대적 이미지가 물리적 변환 후에도 여전히 오분류되는 비율을 계산한다. 실험 결과, ε ≤ 16인 경우 파괴율이 30~40% 수준에 머물며, 다수의 적대적 예시가 카메라를 거쳐도 모델을 속인다. 이는 교란이 픽셀 단위의 미세 변형을 넘어, 이미지 전체의 통계적 특성을 변형시켜 모델의 내부 표현을 교란한다는 것을 의미한다. 추가 실험으로 저자들은 밝기, 대비, 회전, 스케일 등 다양한 인공 이미지 변환을 적용했으며, 대부분의 변환에서도 공격 성공률이 크게 감소하지 않았다. 이는 적대적 예시가 단순히 픽셀값을 조작하는 수준을 넘어, 모델이 학습한 특징 공간에 대한 구조적 취약점을 이용한다는 점을 강조한다. 논문은 또한 공격자가 모델 구조와 파라미터를 완전히 알고 있다는 전제 하에 실험을 진행했지만, 적대적 예시의 전이성(transferability) 특성을 고려하면, 동일한 교란이 다른 아키텍처나 훈련된 모델에도 적용될 가능성이 높다. 따라서 실제 위협 모델에서는 “블랙박스” 상황에서도 물리적 적대적 공격이 실현 가능함을 암시한다. 결론적으로, 이 연구는 물리적 세계에서의 적대적 공격 가능성을 최초로 체계적으로 입증했으며, 향후 방어 연구는 카메라 파라미터를 고려한 맞춤형 교란 생성, 입력 전처리, 적대적 훈련 등 다양한 방안을 탐색해야 함을 제시한다. 또한, 실제 보안 시스템(예: 로봇 비전, 감시 카메라, 모바일 이미지 인식)에서 이러한 위협을 고려한 설계가 필요함을 강조한다.

물리 세계에서도 작동하는 적대적 예시

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기