맥락 안전을 위한 자기반영 메모리 기반 멀티모달 LLM 방어
본 논문은 멀티모달 대형 언어 모델(MLLM)의 “맥락 안전”을 평가하기 위한 MM‑SafetyBench++ 벤치마크를 제안하고, 추론 시 과거 안전 경험을 기억·재활용하는 훈련‑프리 프레임워크 EchoSafe를 소개한다. EchoSafe는 자기반영 메모리 뱅크에 이전 대화의 안전 인사이트를 저장하고, 가장 연관된 사례를 현재 프롬프트에 삽입함으로써 상황에 맞는 안전 판단과 유용한 답변을 동시에 제공한다. 실험 결과, 다양한 공개·폐쇄형 MLL…
저자: Ce Zhang, Jinxi He, Junyi He
멀티모달 대형 언어 모델(MLLM)은 텍스트와 이미지를 동시에 이해·생성함으로써 다양한 응용 분야에서 혁신을 이끌고 있지만, 시각적 입력이 추가되면서 안전 위험도 급증한다. 기존 연구는 주로 “jailbreak 방어”에 초점을 맞추어 명시적으로 위험한 프롬프트를 탐지하고 거부하도록 설계했으며, 이는 과도한 방어(오버디펜시브)와 정상적인 질문에 대한 불필요한 거부를 초래한다. 이러한 접근법은 모델이 상황에 따라 안전과 유용성을 균형 있게 판단해야 하는 “맥락 안전” 요구를 충족시키지 못한다.
본 논문은 이러한 문제점을 해결하기 위해 두 가지 주요 기여를 제시한다. 첫 번째는 MM‑SafetyBench++라는 새로운 벤치마크이다. 기존 MM‑SafetyBench가 제공하던 위험 이미지‑텍스트 쌍에 대해, 각 위험 쌍을 최소한의 의미 변형으로 안전 버전으로 재작성한다. 예를 들어 “탈세 방법을 알려줘”라는 위험 질문을 “합법적인 절세 전략을 알려줘”로 바꾸어, 이미지와 텍스트는 동일하게 유지하면서 의도만 반전시킨다. 이렇게 구성된 안전‑불안전 쌍은 모델이 미묘한 맥락 차이를 인식하고 적절히 행동하는지를 정밀하게 평가한다. 또한 이미지 생성 단계에서는 Qwen‑Image를 활용해 고해상도·고충실도 이미지를 만든다. GEN 모드와 GEN‑OCR 모드를 도입해, 이미지 자체가 위험을 암시하거나 텍스트가 이미지에 삽입된 경우 모두를 포함한다. 평가 지표는 Refusal Rate/Quality Score, Answer Rate/Quality Score, Contextual Correctness Rate/Quality Score 등 다중 메트릭을 사용해, 단순 거부 여부를 넘어 답변의 논리적 타당성·안전성·유용성을 동시에 측정한다.
두 번째 기여는 EchoSafe라는 훈련‑프리 방어 프레임워크이다. EchoSafe는 “자기반영 메모리 뱅크”를 유지한다. 각 추론 단계에서 모델이 생성한 안전 인사이트(예: “주방에 칼이 있지만 음식 준비 목적이라면 허용”)를 키‑밸류 형태로 저장하고, 새로운 입력이 들어올 때 벡터 기반 유사도 검색(FAISS 등)을 통해 가장 연관된 과거 사례를 상위 k개 추출한다. 이 사례들은 프롬프트에 “과거 경험” 섹션으로 삽입되어, 모델이 현재 상황을 과거 경험과 연결해 맥락‑조건부 안전 판단을 수행하도록 돕는다. 메모리 업데이트는 LRU 정책으로 오래된 항목을 교체하며, 저장 용량을 제한한다.
실험은 GPT‑5, GPT‑4o‑Mini, Gemini‑2.5‑Flash, LLaVA‑1.5‑7B, Qwen‑2.5‑VL‑7B, InternVL3.5‑8B 등 10여 종의 모델을 대상으로 진행되었다. MM‑SafetyBench++, MM‑SafetyBench, 그리고 일반 QA 벤치마크(MMLU, VQAv2 등)에서 EchoSafe를 적용한 결과, 안전‑불안전 쌍에 대한 Contextual Correctness Rate가 평균 12 %p 상승했으며, 응답 품질 점수(QS)도 0.4~0.7 포인트 개선되었다. 특히 기존 LoRA 기반 안전 파인튜닝은 안전 질문에 과도하게 거부했지만, EchoSafe는 안전 질문에 대한 Answer Rate를 95 % 이상 유지하면서 위험 질문에 대한 Refusal Rate를 80 % 이상 달성했다. 계산 비용 측면에서는 메모리 검색과 프롬프트 확장이 전체 추론 시간에 8~12 % 정도만 추가되어 실시간 서비스에 적용 가능한 수준으로 평가되었다.
한계점으로는 메모리 뱅크가 초기에는 비어 있어 초반 성능이 낮을 수 있다는 점, 복합 이미지·텍스트 맥락을 완벽히 포착하지 못할 경우 오히려 잘못된 안전 판단을 유도할 가능성, 그리고 현재는 단일 모델 내에서만 메모리를 공유하므로 다중 모델·멀티 도메인 환경에서 메모리 통합 및 프라이버시 보호 방안이 필요하다는 점을 들 수 있다.
결론적으로, MM‑SafetyBench++는 “맥락 안전”을 정량·정성적으로 측정할 수 있는 최초의 고품질 벤치마크이며, EchoSafe는 과거 경험을 활용해 추론 시점에 안전 판단을 동적으로 보강하는 실용적인 솔루션이다. 두 기여는 멀티모달 LLM의 안전성을 단순 거부‑기반 방어를 넘어, 상황 인식·지식 축적 기반의 지속 가능한 안전성 향상으로 전환시키는 중요한 발판을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기