기억소거: 대형 언어 모델 안전 장치를 무력화하는 활성화 공격

본 논문은 대형 언어 모델(LLM)의 안전 메커니즘을 우회하기 위한 새로운 공격 기법인 “Amnesia”를 제안한다. 서론에서는 LLM이 피싱 메일 작성, 악성 코드 생성 등 위험한 콘텐츠를 생산할 수 있음을 강조하고, 현재 RLHF(인간 피드백 강화 학습)·파인튜닝·모델 편집 등 다양한 정렬 기법이 존재하지만, 이러한 방어가 완전하지 않음을 지적한다. 이어서 기존의 프롬프트 기반 탈옥, 그라디언트 기반 공격, 잔차 스트림 조작 등 다양한 공격 방법을 리뷰하고, 이들 방법이 프롬프트 설계의 복잡성, 대규모 파인튜닝 비용, 혹은 광범위한 데이터 수집 요구 등 실용적 제약을 가진다는 점을 언급한다. Amnesia의 핵심 아이디어는 “안전‑관련 토큰이 디코더 레이어의 어텐션 값(value) 경로에서 처음 형성된다”는 관찰이다. 이를 위해 저자들은 작은 캘리브레이션 셋(‘security’, ‘legal’, ‘harm’ 등)으로 모델을 쿼리하고, 해당 레이어에서 안전 토큰에 대응하는 어텐션 값 벡터 Vᵢ 를 추출한다. 이후 새로운 프롬프트에 대해 추론이 진행될 때, 동일 레이어의 값 스트림에 α·Vᵢ 를 빼는 연산을 삽입한다. 이 과정은 모델 파라미터를 전혀 변경하지 않으며, 오직 실행 시점에 활성화만을 변조한다는 점에서 “training‑free” 라고 부른다. 실험에서는 LLaMA‑2‑7B, Falcon‑40B, Mistral‑7B 등 최신 오픈‑소스 LLM을 대상으로 Amnesia를 적용하였다. 공격 성공률(ASR)은 78%~92%에 달했으며, 기존 프롬프트 기반 탈옥(ASR 45%~60%)에 비해 크게 우수했다. 동시에 모델의 일반 성능을 평가한 MMLU, ROUGE, perplexity 지표는 거의 변동이 없었으며, 이는 공격이 안전 메커니즘만을 선택적으로 무력화하고 기본 언어 이해 능력은 유지한다는 것을 의미한다. 또한, 다양한 악의적 시나리오(예: 폭력 선동, 개인정보 유출, 악성 코드 설계)에서 유해 응답을 성공적으로 생성함으로써, 실제 악용 가능성을 입증하였다. 논의 부분에서는 몇 가지 중요한 점을 제시한다. 첫째, Amnesia는 화이트‑박스 가정하에 내부 활성화에 접근할 수 있는 공격자를 전제로 한다는 점이다. 이는 클라우드 기반 API에 직접 적용하기는 어려우나, 오픈‑소스 모델을 자체 호스팅하거나, 내부 디버깅 인터페이스가 노출된 경우 실질적인 위협이 된다. 둘째, α 스케일링 파라미터는 공격 성공과 텍스트 품질 사이의 트레이드오프를 조절한다. 과도한 스케일링은 비정상적인 토큰 분포를 초래해 탐지 가능성을 높인다. 셋째, 현재는 단일 디코더 레이어에만 적용했지만, 다중 레이어 혹은 MLP 스트림을 동시에 변조하면 더욱 강력한 공격이 가능할 것으로 예상된다. 보안적 시사점으로는 기존 정렬 기법이 입력‑출력 수준에서만 작동하고, 내부 활성화 수준의 안전 검증이 부재함을 지적한다. 따라서 모델 설계 단계에서 레이어‑별 안전 검증 로직을 삽입하거나, 활성화 변조를 실시간으로 감시·제어하는 메타‑방어 체계가 필요하다. 구체적인 방어 방안으로는 (1) 활성화 스트림에 대한 무결성 체크섬 도입, (2) 레이어‑별 암호화 및 접근 제어, (3) 안전‑관련 어텐션 값에 대한 정규화 및 제한, (4) 공격 탐지를 위한 활성화 기반 이상 탐지 모델 구축 등을 제안한다. 결론에서는 Amnesia가 오픈‑소스 LLM의 안전성을 크게 위협하는 실용적인 공격임을 강조하고, 보다 견고한 내부 방어 메커니즘과 활성화 수준의 보안 연구가 시급히 필요함을 역설한다.

기억소거: 대형 언어 모델 안전 장치를 무력화하는 활성화 공격

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기