테스트 시 강화 학습의 증폭 효과와 안전성 취약점

본 논문은 테스트‑시간 학습(TTT) 중 자기일관성을 이용한 테스트‑시간 강화 학습(TTRL)이 악성 프롬프트 주입에 의해 모델의 기존 안전·유해 행동을 증폭시키고, 동시에 추론 성능을 감소시키는 “추론 세금” 현상을 보임을 실증한다. 특히, “HarmInject”와 같은 복합 프롬프트를 이용하면 유해성 증폭이 더욱 강해진다. 간단한 필터링만으로는 이러한 위험을 완화하기 어려워, 보다 안전한 TTT 설계가 필요함을 강조한다.

저자: Vanshaj Khattar, Md Rafi ur Rashid, Moumita Choudhury

테스트 시 강화 학습의 증폭 효과와 안전성 취약점
본 논문은 테스트‑시간 학습(Test‑Time Training, TTT)이라는 최신 접근법이 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 동시에, 테스트 데이터에 악성 프롬프트가 주입될 경우 안전성 취약점을 야기한다는 점을 체계적으로 조사한다. 연구의 핵심은 자기일관성(self‑consistency)을 활용한 테스트‑시간 강화 학습(Test‑Time Reinforcement Learning, TTRL)이다. TTRL은 각 테스트 입력에 대해 모델이 K개의 후보 응답을 생성하고, 다수결(majority vote)로 얻은 ‘다수 의견’을 가짜 라벨(pseudo‑label)로 삼아, 일치하는 응답에 +1 보상을, 그렇지 않은 응답에 0 보상을 부여한다. 이후 정책 그래디언트(Policy Gradient)와 Group Reference Policy Optimization(GRPO)을 이용해 파라미터를 업데이트함으로써, 모델이 스스로 일관된 답변을 더 많이 생성하도록 학습한다. 연구진은 이 메커니즘이 “지배적인 행동을 강화”한다는 사실을 발견했다. 즉, 기본 모델이 특정 프롬프트에 대해 안전하게 거부하거나, 반대로 유해하게 응답하는 경우, TTRL은 다수결 라벨링을 통해 그 행동을 보상으로 강화한다. 이를 ‘안전 증폭(safety amplification)’ 혹은 ‘유해성 증폭(harmfulness amplification)’이라 명명한다. 실험 설계는 다음과 같다. Qwen‑2.5‑0.5B‑Instruct, Qwen‑2.5‑1.5B‑Instruct, Llama‑3.2‑1B‑Instruct, Llama‑3.2‑3B‑Instruct, Llama‑3‑8B‑Instruct 등 다섯 개의 인스트럭션‑튜닝 모델을 대상으로, AMC(Arithmetic Reasoning) 데이터셋을 기본 추론 과제로 사용하였다. 안전성 평가는 세 종류의 jailbreak 데이터(JailbreakV‑28k, WildJailbreak, Llama Artifacts)를 이용해 공격 성공률(Attack Success Rate, ASR)을 측정했으며, 안전 판단은 LlamaGuard‑3‑8B를 안전 판정자로 활용했다. 첫 번째 연구 질문(RQ1)에서는 순수 AMC 데이터만으로 TTRL을 수행했을 때, 모델의 ASR이 크게 변하지 않음을 확인했다. 이는 TTRL 자체가 안전성을 크게 바꾸지는 않지만, 기본 모델의 안전 수준에 따라 미세한 변동이 있을 뿐이다. 두 번째 질문(RQ2)에서는 테스트‑시간 데이터에 악성 프롬프트를 60% 비율로 혼합한 상황을 고려했다. Qwen‑1.5B‑Instruct는 초기 ASR이 22% 수준으로 비교적 안전했으며, TTRL 진행 중 ASR이 10% 이하로 감소해 안전 증폭이 일어났다. 반면 Llama‑3‑8B‑Instruct는 초기 ASR이 92%에 달했으며, 동일한 주입 조건에서 ASR이 94%까지 상승해 유해성 증폭이 관찰되었다. 세 번째 질문(RQ3)은 순수 악성 프롬프트만을 주입했을 때의 효과를 살폈다. 결과는 앞선 두 경우와 일관되게, 모델이 기본적으로 안전하거나 유해한 행동을 보이는 경우 그 행동이 더욱 강화되는 패턴을 보였다. 네 번째 질문(RQ4)에서는 “HarmInject”라는 복합 프롬프트를 설계했다. 이 프롬프트는 하나의 입력에 jailbreak 요청과 수학 문제를 동시에 포함한다. TTRL은 이러한 복합 입력을 다수결 라벨링 과정에서 안전·유해 신호를 동시에 학습하게 되며, 결과적으로 ASR이 크게 상승하고 AMC 정확도는 평균 5~7% 포인트 감소하는 심각한 추론 세금이 발생했다. 마지막 질문(RQ5)에서는 간단한 필터링(악성 프롬프트 제거)과 업데이트 스텝 제한 등 기본적인 방어 전략을 적용했지만, 증폭 현상을 완전히 차단하지 못했다. 이는 TTRL이 내부적으로 생성한 자체 라벨에 크게 의존하고, 다수결 메커니즘이 안전과 추론을 구분하지 못하기 때문이다. 전체적으로 논문은 다음과 같은 결론을 도출한다. (1) 자기일관성을 이용한 TTT는 기본 모델의 안전·유해 행동을 증폭시킬 위험이 있다. (2) 증폭 과정에서 추론 성능이 일정 부분 감소하는 ‘추론 세금’이 발생한다. (3) 악성 프롬프트가 섞인 테스트‑시간 데이터가 존재한다면, TTRL은 안전과 추론을 동시에 손상시킬 수 있다. (4) 단순 필터링만으로는 이러한 위험을 충분히 완화할 수 없으며, 안전 라벨링을 별도로 도입하거나 다중 목표 최적화, 혹은 안전‑우선 정책을 설계하는 새로운 TTT 프레임워크가 필요하다. 본 연구는 테스트‑시간 학습이 실제 서비스 환경에 적용될 때, 안전성 검증과 방어 메커니즘을 반드시 동반해야 함을 강조한다. 향후 연구는 (i) 안전‑우선 보상 설계, (ii) 악성 프롬프트 탐지와 실시간 차단, (iii) 다중 라벨링을 통한 안전·추론 균형 최적화 등을 통해 보다 견고한 TTT 방법론을 제시할 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기