시각‑언어 모델의 공백을 메우다: 환각 없는 객체 은폐 기법

본 논문은 기존의 객체 은폐 공격이 시각‑언어 모델(VLM)에서 발생시키는 “환각” 현상이, 대상 영역을 억제해 나타나는 의미적 불연속성 때문임을 밝힌다. 이를 해결하기 위해 저자들은 배경과 통일된 특징을 유지하면서 대상 객체를 재인코딩하는 **배경‑일관 재인코딩(BCR)** 방식을 제안한다. 픽셀‑레벨 최적화와 다중 트랜스포머 레이어에 걸친 통계·사전(dictionary) 정렬 손실을 결합해, 객체를 숨기면서도 시각적 연속성을 보존한다. 실험…

저자: Amira Guesmi, Muhammad Shafique

시각‑언어 모델의 공백을 메우다: 환각 없는 객체 은폐 기법
**1. 서론** 시각‑언어 모델(VLM)은 이미지 캡셔닝, 비주얼 질문 응답(VQA) 등 멀티모달 작업에서 핵심적인 역할을 수행한다. 그러나 이러한 모델은 시각 입력에 대한 작은 교란에도 취약하며, 특히 객체를 은폐하려는 프라이버시 보호 시나리오에서 악용될 수 있다. 기존 연구들은 ROI를 마스크하거나 어텐션을 억제해 객체를 숨기는 방식을 사용했지만, 이때 모델은 시각적 증거가 사라진 것을 감지하고 언어 디코더가 사전 학습된 프라이어에 기반해 가상의 객체를 삽입하는 ‘환각’ 현상이 빈번히 발생한다. **2. 관련 연구** - **VLM에 대한 적대적 공격**: FGSM, PGD 등 이미지‑레벨 교란을 VLM에 적용해 캡션·VQA 성능을 저하시키는 연구가 있다. - **프라이버시·정보 보호 공격**: VIP, PRM 등은 ROI를 직접 억제하거나 특징을 왜곡해 객체를 숨긴다. 그러나 이들 역시 표현 공백을 만들며 환각을 유발한다. **3. 위협 모델** 화이트박스 공격자를 가정한다. 공격자는 VLM의 구조와 파라미터에 접근 가능하며, ℓ∞ 제약(ε) 내에서 픽셀‑레벨 교란 δ를 적용한다. 목표는 ROI의 시각적 증거를 제거하되, 전체 이미지의 의미적 일관성을 유지하고 언어 디코더가 환각을 일으키지 않도록 하는 것이다. **4. 공격 원리 – 배경‑일관 재인코딩(BCR)** 기존 억제 기반 방법이 ROI를 ‘삭제’함으로써 발생하는 의미적 불연속을 피하고, ROI를 배경과 동일한 통계·구조적 특성을 갖도록 재인코딩한다. 구체적인 제약은 다음과 같다. - **통계 정렬**: ROI와 배경 토큰의 평균·표준편차를 최소화해 1차·2차 통계 일치를 달성한다. - **사전 투영**: 배경 토큰을 사전으로 삼아 ROI 특징을 배경 특징의 가중합으로 재구성한다. 소프트 어사인먼트와 온도 파라미터 τ를 사용해 부드러운 투영을 구현한다. - **배경 보존**: ROI 외부 토큰은 원본 이미지와 거의 동일하게 유지하도록 L2 정규화를 적용한다. - **픽셀‑레벨 TV 정규화**: ROI 내부 교란을 공간적으로 부드럽게 만들어 시각적 인지 차이를 최소화한다. 이 손실들을 다중 레이어(L)에서 동시에 최적화함으로써, 저자들은 저수준 패치 임베딩부터 고수준 CLS 토큰까지 ROI와 배경 사이에 불연속이 발생하지 않도록 보장한다. **5. 수식 및 최적화** 목표 함수는 \

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기