개인화 이미지 생성 보안 컨텍스트 인식 제한과 추적

본 논문은 개인화 텍스트‑투‑이미지 모델에서 발생하는 ‘개인화 위협’에 대응하기 위해, 특정 인물·대상을 포함한 악성 프롬프트만을 차단하고, 해당 이미지에 개념‑바인딩 워터마크를 삽입하는 IDENTITYGUARD 프레임워크를 제안한다. 조건부 제한(Semantic Redirection)과 개념‑바인딩 증거(Concept‑Bound Provenance)를 결합해 모델의 일반 유틸리티는 유지하면서도 안전성을 크게 향상시킨다.

저자: Lingyun Zhang, Yu Xie, Ping Chen

개인화 이미지 생성 보안 컨텍스트 인식 제한과 추적
본 논문은 개인화 텍스트‑투‑이미지 모델이 제공하는 강력한 맞춤형 이미지 생성 능력이 동시에 심각한 보안 위협을 내포한다는 점을 지적한다. 기존의 안전성 접근법은 크게 두 가지로 나뉜다. 첫 번째는 Safe Latent Diffusion(SLD)과 같은 전역 필터로, 프롬프트 내용과 무관하게 전체 모델 출력을 억제한다. 두 번째는 Erasing Concept(ESD)과 같은 전역 삭제 방식으로, 특정 개념을 모델 자체에서 제거해 악성 사용을 차단한다. 그러나 전자는 과도한 차단으로 benign 프롬프트까지 손상시키고, 후자는 개념 자체를 소멸시켜 모델의 기본 유틸리티를 크게 저하시킨다. 특히 개인화된 개념(예: 특정 인물)과 금지된 개념(예: 폭력, 누드)이 결합될 때만 위험이 발생한다는 점을 간과한다. 이에 저자들은 “컨텍스트‑인식 보안”이라는 새로운 패러다임을 제안한다. 핵심은 보안 메커니즘을 개인화된 개념에 직접 바인딩함으로써, 악성 프롬프트에만 제한을 적용하고 benign 프롬프트는 그대로 유지하는 것이다. 이를 구현한 것이 IDENTITYGUARD 프레임워크이다. 구조적으로 IDENTITYGUARD은 DreamBooth 파인튜닝 과정에 두 개의 병렬 경로를 추가한다. 상위 경로는 benign 개인화 프롬프트에 대해 Concept‑Bound Provenance(워터마크) 손실을 적용한다. 하위 경로는 악성 프롬프트에 대해 Conditional Identity‑Preserving(CIP) 손실, 즉 Semantic Redirection을 적용한다. CIP 손실은 악성 프롬프트(개인화 토큰 c* + 금지 토큰 cp)의 노이즈 예측을 benign 프롬프트(오직 c*만 포함)와 정렬시키는 방식으로, 모델이 금지된 개념을 무시하고 개인화된 인물만을 그리도록 학습한다. 이때 stop‑gradient 연산을 사용해 benign 경로의 그래디언트가 악성 경로에 역전파되지 않도록 하여 비대칭성을 보장한다. 워터마크는 사전 학습된 고정 디코더 Dw 를 이용해 이미지에 k‑bit 메시지를 삽입한다. 중요한 점은 이 워터마크가 프롬프트에 c* 가 포함될 때만 활성화된다는 것이다. 따라서 일반 프롬프트에서는 워터마크가 삽입되지 않아 이미지 품질에 영향을 주지 않으며, 개인화된 이미지에만 고유한 증거가 남는다. 실험 설정은 Stable Diffusion v2.1 기반 DreamBooth 모델에 λr = 0.2, λw = 0.1을 적용해 학습하였다. 평가에는 1) benign 프롬프트에 대한 이미지 품질(FID, CLIP Score), 2) 악성 프롬프트에 대한 제한 효과(FID‑Censored, CLIP‑Censored), 3) 워터마크 복원 정확도(Bit Accuracy)를 사용했다. 표 1에서 확인할 수 있듯이, 기존 DreamBooth은 높은 유틸리티(FID ≈ 55)지만 보안이 전무했다. SLD는 제한 효과가 약하고, ESD는 제한은 강하지만 유틸리티가 크게 저하되었다(FID ≈ 57, CLIP‑Censored ≈ 0.21). 반면 IDENTITYGUARD은 유틸리티를 거의 유지하면서(CLIP ≈ 0.30, FID ≈ 55), 악성 프롬프트에 대한 CLIP‑Censored를 0.19까지 낮추었다. 워터마크 비트 정확도는 97 %에 달해 강력한 추적성을 제공한다. 특히 누드 생성 차단 실험(표 2)에서는 NudeNet 검출 수가 DreamBooth 342건, ESD 46건, SLD 246건에 비해 IDENTITYGUARD은 2건에 불과했다. 이는 실제 서비스 환경에서 발생할 수 있는 고위험 상황에 대해 거의 완전에 가까운 방어를 제공함을 의미한다. 논문의 한계로는 실험이 제한된 몇몇 개인화 개념(인물 sks)과 금지 개념(불, 감옥, 누드)만을 대상으로 했으며, 블랙리스트가 동적으로 변하거나 다중 개념이 복합적으로 얽힌 경우에 대한 검증이 부족하다. 또한, 현재 구현은 파인튜닝 단계에서 추가 학습이 필요하므로, 사전 학습된 대규모 모델에 바로 적용하기엔 비용이 발생한다. 향후 연구 방향은 (1) 다양한 생성 모델(텍스트‑투‑비디오, 3D)와의 호환성 검증, (2) 다중 언어·다중 문화에 맞는 금지 개념 정의 및 자동 탐지, (3) 경량화된 런타임 필터링을 위한 프롬프트 파싱 및 실시간 조건부 스위치 구현, (4) 워터마크의 암호학적 강도 강화와 법적 증거력 확보를 위한 표준화 등을 제시한다. 결론적으로, IDENTITYGUARD은 개인화된 생성 모델에 특화된 “컨텍스트‑인식 보안”을 구현함으로써, 기존 전역 필터가 초래하던 유틸리티 손실 없이 악성 사용을 효과적으로 차단하고, 개념‑바인딩 워터마크를 통해 정확한 이미지 출처 추적을 가능하게 한다. 이는 개인화 AI 서비스가 안전하게 확장될 수 있는 실질적인 길을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기