안전한 사슬 사고 흐름을 위한 실시간 평가와 보정

본 논문은 대형 언어 모델(LLM)의 체인‑오브‑쓰리(CoT) 추론 과정에서 발생할 수 있는 안전 위협을 중간 단계까지 실시간으로 감시하고 교정하는 새로운 프레임워크인 SFCoT(SaFer Chain‑of‑Thought)를 제안한다. 기존 방어 기법은 주로 최종 출력에만 사후 필터링을 적용해 중간 사고 단계에서 발생하는 위험을 놓치기 쉽다는 한계를 가지고 있다. 이를 해결하기 위해 저자들은 (1) 어휘, 의미, 정책의 세 레벨로 구성된 안전 점수 시스템, (2) 다중 관점 일관성 검증 모듈, (3) 동적 개입 및 재작성 모듈을 결합한 3‑tier 구조를 설계하였다. SFCoT의 작동 흐름은 다음과 같다. 사용자가 질의를 입력하면 모델은 CoT 프롬프트에 따라 일련의 “생각” 단계 T={t₁,…,tₙ}와 최종 답변 y를 생성한다. 이때 CoT 파서가 태그 등을 이용해 각 단계와 답변을 분리한다. 각 tᵢ에 대해 어휘 레벨(S_lex)은 사전 정의된 민감 단어와 정규식으로 명시적 위험을 빠르게 차단하고, 의미 레벨(S_sem)은 경량 딥러닝 모델을 통해 은유·우회적 표현을 탐지한다. 정책 레벨(S_policy)은 현재 단계가 전체 추론 흐름에서 정책 위반이나 논리적 모순을 시도하는지를 평가한다. 세 점수는 가중 평균(α₁=0.3, α₂=0.5, α₃=0.2)으로 결합돼 0~1 사이의 종합 안전 점수 S(tᵢ)를 만든다. S(tᵢ)가 사전 정의된 안전 임계값 τ보다 높으면 추론을 그대로 진행한다. S(tᵢ) < τ인 경우 두 가지 상황으로 나뉜다. (1) 점수가 명백히 낮아 위험이 확실한 경우, 동적 개입 모듈 I가 즉시 추론을 중단(truncate)하고 위험 출력을 차단한다. (2) 점수가 그레이 존에 해당하면, 다중 관점 일관성 검증기 V가 K개의 의미적 패러프레이즈를 생성하고 각각에 대해 S를 재계산한다. 이때 점수 분산이 δ를 초과하면 의미적 불안정성을 의심하고, 동적 개입 모듈이 재작성(rewrite) 절차를 실행한다. 재작성은 위험 요소를 안전한 표현으로 교체하거나, 필요 시 해당 단계 전체를 삭제한다. 재작성에도 실패하면 시스템은 경고를 출력하거나 사용자를 차단한다. 실험은 Qwen‑3‑8B 모델을 기반으로 진행되었으며, JailBreak V_28K 데이터셋(20 k 샘플)에서 공격 성공률(ASR)을 주요 지표로 사용했다. 기존 사후 필터링은 ASR을 45.13 %로 낮췄지만, SFCoT는 12.31 %까지 크게 감소시켰다. 이는 79 % 이상의 안전 향상을 의미한다. 또한 MMLU, GSM8K, MBPP와 같은 일반 능력 벤치마크에서는 각각 90.8 %, 92.0 %, 90.7 %의 성능을 유지해 전체 평균 91.2 %의 유틸리티 보존율을 기록했다. 소거 실험에서는 (a) 그레이 존 검증을 제외한 경우 ASR이 18.46 %로 상승했고, (b) 재작성 없이 단순 차단만 할 경우 ASR이 13.85 %에 머물렀다. 이는 일관성 검증이 49.9 %의 상대적 개선을, 재작성 메커니즘이 추가로 12.5 %의 개선을 제공함을 보여준다. 또한 재작성된 출력은 품질 점수 4.6을 기록해, 차단 방식(2.1)보다 현저히 높은 자연스러움과 유용성을 보였다. SFCoT는 안전 점수와 임계값, 가중치를 지속적인 학습을 통해 업데이트함으로써 새로운 공격 패턴에도 적응 가능하도록 설계되었다. 전체 아키텍처는 경량화된 어휘·의미·정책 평가와 다중 패러프레이즈 기반 일관성 검증을 결합해, 실시간으로 위험을 탐지하고 즉시 보정함으로써 LLM의 안전성을 크게 향상시킨다. 논문은 이러한 접근이 기존 사후 방어보다 효율적이며, 일반 성능 저하 없이 안전성을 강화할 수 있음을 실험적으로 입증한다.

안전한 사슬 사고 흐름을 위한 실시간 평가와 보정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기