텍스트만으로 그래프 백도어를 구현하는 TAGBD 공격
본 논문은 텍스트 속성 그래프에서 노드 텍스트만을 조작해 백도어를 삽입하는 새로운 공격인 TAGBD를 제안한다. 불확실도 기반으로 취약 노드를 선정하고, 섀도우 GNN을 이용해 그래프‑컨텍스트에 맞는 은밀한 트리거 텍스트를 생성한다. 생성된 텍스트는 원본을 완전히 덮어쓰거나 짧은 구절을 추가하는 두 방식으로 삽입되며, 실험 결과 Cora, Pubmed, ArXiv 등에서 99 % 이상의 공격 성공률을 달성하면서도 정상 정확도와 텍스트 자연성을 …
저자: Qi Luo, Minghui Xu, Dongxiao Yu
**1. 서론 및 위협 모델**
텍스트‑속성 그래프(TAG)는 노드가 텍스트와 연결 정보를 동시에 갖는 구조로, 학술 인용 네트워크, 소셜 미디어, 추천 시스템 등 다양한 도메인에 적용된다. 기존 연구는 그래프 구조를 변형하거나 잠재 특징을 조작해 백도어를 삽입했지만, 실제 서비스에서는 텍스트가 가장 쉽게 조작 가능한 채널이다. 본 논문은 “텍스트만을 편집하고 그래프 구조는 그대로 유지”한다는 현실적인 제약 하에서, 텍스트가 백도어 트리거가 될 수 있는지를 탐구한다. 공격자는 훈련 그래프와 라벨을 일부 알지만, 목표 GNN의 아키텍처·파라미터·학습 방식은 모른다(그레이박스). 목표는 특정 트리거가 포함된 테스트 노드가 공격자가 지정한 목표 라벨(y_t)로 분류되게 하면서, 정상 노드에 대한 정확도는 크게 떨어지지 않게 하는 것이다.
**2. 관련 연구**
기존 그래프 백도어는 (a) 서브그래프 삽입, (b) 엣지 추가·삭제, (c) 잠재 특징 교란 등 구조‑중심 방법에 초점을 맞췄다. 텍스트 기반 공격은 NLP 분야에서 활발히 연구됐지만, 그래프 메시지 전달 과정에서 텍스트 신호가 어떻게 유지되는지는 충분히 다루어지지 않았다.
**3. TAGBD 설계**
TAGBD는 세 가지 핵심 모듈로 구성된다.
- **3.1 불확실도 기반 노드 선택**
서브시큐어 GNN(섀도우 모델)을 라벨이 있는 노드에 학습시킨 뒤, 라벨이 없는 훈련 노드들의 예측 엔트로피를 계산한다. 엔트로피가 높은 노드는 현재 모델이 불확실해 라벨 전이가 쉬운 후보이며, 제한된 예산(예: 전체 노드의 1 % 이하) 내에서 효율적으로 선택된다.
- **3.2 그래프‑인식 트리거 생성기 (TextTrojan)**
선택된 노드의 그래프‑컨텍스트 임베딩 h_i (다중 레이어 GNN에서 추출)와 원본 텍스트 t_i를 입력으로, 사전학습된 텍스트 디코더(예: GPT‑2 기반)를 사용해 트리거 텍스트 τ_i를 생성한다. 손실은 세 부분으로 구성된다.
1) **목표 라벨 손실**: τ_i가 삽입된 후 노드가 목표 라벨 y_t로 분류되도록 교차 엔트로피 최소화.
2) **의미 유사도 손실**: 원본 텍스트와 τ_i 사이의 코사인 유사도(sim ≥ δ) 를 유지해 자연스러움 보장.
3) **그래프 정합 손실**: τ_i가 h_i와 일관되도록, 즉 그래프‑컨텍스트와 의미적으로 어긋나지 않도록 하는 정규화 항을 추가.
이 세 손실을 동시에 최소화함으로써, 트리거는 “희귀하지만 문맥에 맞는” 형태가 된다.
- **3.3 텍스트 삽입 전략**
- *Overwriting*: 원본 텍스트를 τ_i 로 완전 교체. 공격 강도는 최고지만 텍스트 변형이 크다.
- *Appending*: τ_i 를 원본 텍스트 뒤에 짧게 추가. 원본 의미를 크게 훼손하지 않아 인간·자동 필터가 탐지하기 어렵다. 두 전략은 실험에서 서로 다른 효율‑은밀성 포인트를 제공한다.
**4. 실험 설정**
세 데이터셋(Cora, Pubmed, ArXiv)과 세 GNN 백본(GCN, GraphSAGE, GAT)을 사용했다. 공격 예산은 전체 훈련 노드의 0.5 %~1 % 수준이며, 트리거 길이는 5~10 토큰으로 제한했다. 방어 기법으로는 (i) Edge‑Pruning, (ii) GNNGuard, (iii) Jaccard‑based 노드 필터링을 적용해 비교하였다.
**5. 결과**
- **공격 성공률(ASR)**: Overwriting은 99.9 %에 달했으며, Appending도 98.7 % 이상을 기록했다.
- **클린 정확도**: 원본 모델 대비 평균 0.3 %~0.6 % 감소, 즉 실용적인 수준.
- **방어 내성**: 기존 구조‑중심 방어를 적용해도 ASR 감소폭이 2 % 이하에 그쳤다. 이는 텍스트 트리거가 그래프 구조 변화 없이도 강력히 작동함을 의미한다.
- **인간 평가**: 별도 설문에서 Appending 방식의 트리거는 85 % 이상이 “자연스럽다”고 평가되었으며, Overwriting은 60 % 수준이었다.
**6. 논의**
TAGBD는 (1) 텍스트만으로도 백도어를 구현할 수 있음을 증명하고, (2) 그래프‑컨텍스트를 반영한 트리거 생성이 없으면 메시지 전달 과정에서 신호가 소멸한다는 점을 강조한다. 또한, 불확실도 기반 노드 선택이 제한된 예산 하에서 공격 효율을 크게 높인다는 실용적 인사이트를 제공한다. 방어 측면에서는 텍스트‑그래프 공동 이상 탐지, 텍스트 정규화, 혹은 트리거 검증을 위한 언어 모델 기반 필터링이 필요함을 시사한다.
**7. 결론**
TAGBD는 텍스트‑속성 그래프에서 현실적인 위협 모델을 설정하고, 그래프‑인식 트리거 생성과 두 가지 삽입 전략을 통해 높은 성공률과 은밀성을 동시에 달성한다. 이는 기존 구조‑중심 방어가 놓치고 있던 새로운 공격 표면을 드러내며, 텍스트와 그래프를 동시에 고려한 방어 메커니즘 개발의 필요성을 강조한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기