픽셀에 독을 풀다 의미분할 백도어 공격 재조명

본 논문은 의미분할 모델에 대한 백도어 위협을 체계적으로 재검토한다. 기존 연구가 ‘객체→배경’ 한 가지 공격에만 집중한 반면, 저자는 객체‑객체, 배경‑객체, 배경‑배경 등 네 가지 거친 공격 벡터와 인스턴스‑레벨·조건부 두 가지 세밀한 벡터를 정의한다. 이를 바탕으로 트리거 설계와 라벨 변조를 최적화하는 통합 프레임워크 BADSEG를 제안하고, CNN, 트랜스포머, SAM 등 다양한 최신 세그멘테이션 아키텍처에 대해 광범위한 실험을 수행한다…

저자: Guangsheng Zhang, Huan Tian, Leo Zhang

픽셀에 독을 풀다 의미분할 백도어 공격 재조명
본 논문은 의미분할 모델이 안전‑중요 분야, 특히 자율주행에서 차지하는 역할이 커짐에 따라, 기존 이미지 분류 중심의 백도어 연구가 충분히 다루지 못한 새로운 위협을 체계적으로 탐구한다. 먼저, 기존 연구가 ‘객체→배경’ 한 가지 공격 벡터에만 초점을 맞추어 왔던 문제점을 지적하고, 의미분할 특성에 맞는 네 가지 거친 공격 벡터와 두 가지 세밀한 공격 벡터를 정의한다. 거친 공격은 (1) 객체‑객체(Object‑to‑Object): 예를 들어 보행자를 차량으로 오인시켜 사고 위험을 초래, (2) 객체‑배경(Object‑to‑Background): 객체를 배경으로 전환해 사라지게 함, (3) 배경‑객체(Background‑to‑Object): 배경에 허위 객체를 삽입해 잘못된 인식 유도, (4) 배경‑배경(Background‑to‑Background): 예를 들어 보도와 도로를 서로 바꾸어 전체 장면 이해를 흐리게 함. 세밀한 공격은 (1) 인스턴스‑레벨(Instance‑Level) 공격으로 트리거가 부착된 특정 인스턴스만을 목표로 하여 다른 동일 클래스는 정상적으로 인식되게 함, (2) 조건부(Conditional) 공격으로 트리거와 특정 환경·속성(예: 빨간색 차량)이 동시에 존재할 때만 발동하도록 설계해 탐지를 회피한다. 이러한 위협 모델을 구현하기 위해 BADSEG(Backdoor Attacks on Semantic SEGmentation)라는 통합 프레임워크를 제안한다. BADSEG는 두 가지 핵심 최적화 과정을 포함한다. 첫째, 트리거 설계 단계에서 Gumbel‑Softmax를 이용해 색상, 위치, 형태와 같은 이산적인 트리거 파라미터를 연속적인 확률 변수로 변환, 미분 가능한 손실 함수를 통해 최적화한다. 이를 통해 시각적으로 최소한의 변형으로도 높은 공격 성공률을 달성할 수 있다. 둘째, 라벨 변조 단계에서는 클래스 간 의미적 거리를 사전 학습된 임베딩 공간에서 계산하고, 거리(semantic distance)가 가장 작은 victim‑target 쌍을 선택한다. 이는 두 클래스가 피처 공간에서 서로 가깝기 때문에 백도어 삽입 시 모델의 일반화 손실을 최소화하고, 클린 데이터에 대한 성능 저하를 억제한다. 실험은 세 가지 데이터셋(Cityscapes, BDD100K, COCO‑Stuff)과 7가지 모델(DeepLabV3+, HRNet, SegFormer, Swin‑Transformer, ConvNeXt‑Seg, SAM 등)을 대상으로 수행되었다. 총 12가지 공격 시나리오와 150여 개 실험 설정을 통해 BADSEG가 모든 공격 벡터에서 80 % 이상, 특히 객체‑배경 및 배경‑객체에서 90 %에 가까운 성공률을 기록했으며, 클린 데이터에 대한 mIoU 감소는 1 % 이하에 머물렀다. 이는 기존 히스토그램 기반 트리거(예: HBA, OFBA, IBA)와 비교해 공격 효율성과 은폐성이 크게 향상된 결과이다. 또한, 기존 백도어 방어 기법인 Neural Cleanse, Fine‑pruning, STRIP, NC, ABS 등 6가지를 적용했을 때, 대부분의 경우 방어 성공률이 30 % 이하에 그쳐 실질적인 방어 효과가 부족함을 확인했다. 이는 현재 방어 메커니즘이 픽셀‑레벨 라벨 변조와 트리거 최적화에 대한 고려가 부족함을 시사한다. 트랜스포머 기반 SegFormer와 최신 Segment Anything Model(SAM)에도 BADSEG‑SAM 변형을 적용했다. SAM은 프롬프트 기반 바이너리 마스크를 출력하므로 라벨 변조 대신 마스크 조작을 목표로 했다. BADSEG‑SAM은 마스크 왜곡, 마스크 삭제, 마스크 삽입 세 가지 공격을 설계했으며, 각각 75 %~85 %의 성공률을 보였다. 특히 마스크 삽입 공격은 비정상적인 객체가 존재하는 것처럼 보이게 하여 downstream 모듈(예: 경로 계획)까지 영향을 미칠 수 있음을 보여준다. 논문의 주요 기여는 다음과 같다. (1) 의미분할 특성에 맞는 다양한 백도어 공격 벡터를 체계적으로 정의하고, 기존 연구의 한계를 보완했다. (2) 트리거 설계와 라벨 변조를 동시에 최적화하는 BADSEG 프레임워크를 제안해 높은 공격 성공률과 낮은 클린 성능 저하를 동시에 달성했다. (3) 12가지 공격 시나리오와 7가지 최신 모델에 대한 광범위한 실험을 통해 BADSEG의 일반성을 입증했다. (4) 기존 6가지 방어 기법이 BADSEG를 충분히 차단하지 못함을 실증해, 의미분할 전용 방어 연구의 필요성을 강조했다. (5) 트랜스포머와 SAM 등 최신 아키텍처에도 동일한 취약점이 존재함을 보여, 앞으로의 모델 설계 시 보안 고려가 필수임을 제시한다. 한계점으로는 물리적 세계에서의 트리거 강인성 검증이 부족하고, 라벨 변조 시 의미적 거리 계산에 사용된 임베딩이 사전 학습된 모델에 의존한다는 점을 들 수 있다. 또한, 현재 BADSEG는 트리거를 고정된 패턴으로 가정하므로, 동적 트리거(예: 움직이는 물체)나 환경 변화에 대한 적응형 설계가 필요하다. 향후 연구는 물리적 실험, 메타‑학습 기반 라벨 변조 없이도 픽셀‑레벨 선택적 교란을 가능하게 하는 방법, 그리고 백도어 탐지를 위한 의미분할 전용 방어 메커니즘 개발을 목표로 해야 할 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기