이미지 생성 모델 개념 삭제 취약점 멀티모달 공격 REFORGE

본 논문은 이미지 생성 모델에서 특정 개념을 삭제하는 IGMU 기법의 취약성을 검증하기 위해, 텍스트와 이미지를 동시에 활용하는 블랙박스 공격 프레임워크 REFORGE를 제안한다. 스트로크 기반 초기 이미지와 교차‑어텐션 마스크를 이용해 개념‑관련 영역에만 섬세한 노이즈를 삽입함으로써 시각적 왜곡을 최소화하면서도 삭제된 개념을 재현한다. 실험 결과, 기존 텍스트‑전용 공격보다 높은 성공률과 텍스트‑이미지 정합성을 보이며 현재 IGMU 방어가 충…

저자: Yong Zou, Haoran Li, Fanxiao Li

본 논문은 이미지 생성 모델(IGM)에서 특정 위험 요소(예: 저작권 침해, 부적절한 콘텐츠)를 제거하기 위해 고안된 개념 삭제(IGMU) 기법의 보안성을 검증하고, 그 취약점을 드러내는 새로운 블랙박스 공격 프레임워크 REFORGE를 제안한다. 기존 IGMU 연구는 주로 텍스트 프롬프트만을 대상으로 공격·방어를 논의했으며, 이미지 입력을 활용한 멀티모달 공격은 거의 다루지 않았다. REFORGE는 이러한 공백을 메우기 위해, (1) 레퍼런스 이미지에서 전역 레이아웃을 보존하면서 세부 디테일을 제거한 스트로크‑시뮬레이션 이미지를 초기화하고, (2) 공개된 프록시 확산 모델의 교차‑어텐션 맵을 이용해 개념‑관련 영역을 강조하는 마스크 M을 생성한다. 프레임워크는 네 단계로 구성된다. Stage I에서는 레퍼런스 이미지 P_ref를 대형 커널 중간값 필터와 색상 양자화(k=6)를 적용해 흐릿한 스케치 P*_adv로 변환한다. 이는 인간이 인식하기 쉬운 구성을 유지하면서, 모델이 고주파 정보를 과도하게 학습하는 것을 방지한다. Stage II에서는 프록시 모델 SD에 (P*_adv, P_text)를 입력해 각 디노이징 타임스텝 t의 교차‑어텐션 A_t를 추출하고, 이를 집계·정규화해 마스크 M∈

이미지 생성 모델 개념 삭제 취약점 멀티모달 공격 REFORGE

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기