위험 의도 탐지를 위한 훈련‑무료 각도 기반 잔차 스트림 분석

본 논문은 대형 언어 모델(LLM)의 잔차 스트림(residual stream) 내부에 존재하는 기하학적 구조를 활용해, 훈련 없이 해로운 프롬프트를 실시간으로 탐지하는 방법인 “LatentBiopsy”를 제안한다. 기존 안전 방어 체계는 크게 두 갈래로 나뉜다. 첫 번째는 입력 텍스트 자체의 퍼플렉시티를 이용한 필터링으로, 표면적인 변형에는 강하지만 의미적으로 정교한 우회(jailbreak)에는 취약하다. 두 번째는 라벨링된 위험·안전 데이터셋을 이용해 별도 분류기를 학습시키는 방식으로, 높은 정확도를 보이지만 데이터 의존성과 모델마다 재학습이 필요하다는 비용이 있다. 최근 연구들은 LLM의 잔차 스트림에 의미가 방향성으로 인코딩된다는 ‘Linear Representation Hypothesis’를 제시했으며, 안전 관련 선형 방향을 추출하거나 거부 행동을 단일 방향으로 설명하는 시도가 있었다. 그러나 이들 방법은 모두 위험 예시나 의도적인 안전 프롬프트를 필요로 한다. LatentBiopsy는 이러한 전제조건을 완전히 배제한다. 200개의 안전 프롬프트(Alpaca‑Cleaned에서 추출)만을 사용해 각 프롬프트의 마지막 토큰 잔차 벡터 fₗ(x)를 수집하고, 이들에 대한 주성분 분석(PCA)을 수행한다. 가장 큰 분산을 차지하는 첫 번째 주성분 c(단위벡터)를 “정규 기준 방향”으로 정의한다. 테스트 프롬프트 x에 대해 θ(x)=arccos( (fₗ(x)·c) / ||fₗ(x)|| ) 를 계산한다. θ는 0~π 사이의 값으로, c와의 방향 차이만을 반영한다. 이후 안전 프롬프트 집합에서 얻은 θ들의 경험적 분포에 정규분포 N(μ₀,σ₀²)를 피팅하고, 테스트 θ에 대한 음의 로그우도 s(x)=−log p(θ|μ₀,σ₀²) 를 이상점수로 사용한다. 이 점수는 μ₀를 중심으로 대칭적이므로, 해로운 프롬프트가 c보다 안쪽에 있든 바깥쪽에 있든 동일하게 높은 점수를 부여한다. 실험은 두 가지 모델 계열, Qwen3.5‑0.8B(D=1024, 24층)와 Qwen2.5‑0.5B(D=896, 24층)를 대상으로 진행되었다. 각 계열마다 (1) 베이스 모델, (2) 인스트럭션 튜닝된 챗 모델, (3) 거부 방향을 orthogonalisation 기법으로 제거한 ‘abliterated’ 모델 총 6가지 변형을 평가했다. 데이터는 안전 프롬프트 200개를 피팅에 사용하고, 별도 보유한 안전 프롬프트 520개, 해로운 프롬프트 520개(AdvBench), 그리고 공격성(benign‑aggressive) 프롬프트 250개(XSTest)를 평가에 활용했다. 레이어 선택은 각 레이어별 AUROC를 계산해 가장 높은 값을 보이는 레이어를 선택했으며, 대부분 레이어 20이 최적이었다(abliterated Qwen2.5‑0.5B는 레이어 10). 성능 지표는 AUROC와 AUPRC이며, 세 가지 이진 분류 과제(해로운 vs. 안전, 해로운 vs. 공격성, 해로운 vs. (안전∪공격성))에 대해 측정했다. 주요 결과는 다음과 같다. (1) 모든 모델에서 해로운 vs. 공격성 구분은 AUROC = 1.000을 달성, 완벽한 구분이 가능했다. (2) 해로운 vs. 안전 구분에서도 AUROC가 0.9374~0.9642 사이로 높은 수준을 유지했으며, 특히 abliterated 모델은 인스트럭션 모델과 0.002~0.005 이하 차이로 거의 동일한 성능을 보였다. 이는 거부 메커니즘을 제거해도 해로운 의도에 대한 내부 표현이 남아 있음을 의미한다. (3) 해로운 프롬프트의 θ 분산 σₕ≈0.03 rad는 안전 프롬프트 σₙ≈0.27 rad보다 약 10배 작아, 거의 한 점에 집중된 클러스터를 형성한다. 따라서 K=1(단일 주성분)만으로도 충분히 구분이 가능함을 실증했다. (4) 두 모델 계열은 동일 레이어에서 “링 방향”이 반대였다. Qwen3.5‑0.8B에서는 해로운 프롬프트가 기준 방향보다 큰 θ(외부 링)에 위치하고, Qwen2.5‑0.5B에서는 작은 θ(내부 링)에 위치한다. 이 차이는 고정된 θ 임계값을 사용하면 모델마다 오탐이 발생할 수 있음을 보여주며, 대칭적 로그우도 점수가 이러한 구조적 변동성을 자연스럽게 흡수한다는 점을 강조한다. 비교 베이스라인으로는 (a) 절대 각도 차이 |θ−μ₀|, (b) 2차원 (θ, φ) 가우시안 로그우도, (c) 코사인 유사도 기반 점수, (d) 유클리드 거리 기반 점수가 포함되었으며, 모두 LatentBiopsy보다 낮은 AUROC와 AUPRC를 기록했다. 특히 해로운‑공격성 구분에서는 모든 베이스라인이 1.000에 미치지 못했다. 논문의 기여는 크게 두 부분으로 정리된다. 첫째, 위험 탐지를 위해 라벨링된 위험 데이터나 추가 학습이 전혀 필요 없으며, 기존 LLM에 경량 플러그인 형태로 적용 가능하다는 점이다. 이는 모델 업데이트나 새로운 위험 카테고리 등장 시 재학습 비용을 크게 절감한다. 둘째, 해로운 의도 표현이 거부 메커니즘과 독립적인 기하학적 신호로 존재한다는 근본적인 안전 설계 통찰을 제공한다. 따라서 거부 기능만 제거하는 공격(예: 모델을 “거부 불가” 상태로 만들고 악용하려는 시도)에도 외부 감시 시스템을 통한 위험 신호 검출이 필요함을 시사한다. 향후 연구는 다른 모델 아키텍처, 더 깊은 레이어, 다중 주성분(K>1) 활용, 그리고 실시간 시스템 통합을 통해 탐지 정확도와 효율성을 더욱 향상시킬 수 있을 것이다.

위험 의도 탐지를 위한 훈련‑무료 각도 기반 잔차 스트림 분석

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기