대형 언어 모델의 자원 소모 위협 탐구

본 논문은 제한된 컴퓨팅 인프라 환경에서 대형 언어 모델(LLM)의 효율성을 위협하는 ‘자원 소모 공격(Resource Consumption Attacks)’을 체계적으로 조사한다. 공격을 ‘과잉 사고(Overthinking)’와 ‘무한 드리프트(Unbounded Drift)’ 두 가지 생성 양상으로 구분하고, 각 양상에 해당하는 공격 기법, 메커니즘, 방어 방법을 정리한다. 또한 초기 딥러닝 단계부터 현재 멀티모달, 추론, 에이전트형 LLM에…

저자: Yuanhe Zhang, Xinyue Wang, Zhican Chen

대형 언어 모델의 자원 소모 위협 탐구
본 논문은 제한된 컴퓨팅 인프라와 높은 운영 비용이 LLM 배포에 큰 제약을 주는 현실에서, 모델의 자원 효율성을 위협하는 ‘자원 소모 공격(Resource Consumption Threats)’을 체계적으로 정리한다. 서론에서는 LLM이 다양한 분야에서 활용되면서도 연산 비용이 급증하고 있음을 언급하고, 기존의 효율성 최적화 연구만으로는 악의적인 과도한 연산 유발을 막기에 부족함을 지적한다. 논문의 핵심은 ‘생성 행동 기반’의 두 가지 레짐, 즉 ‘과잉 사고(Overthinking)’와 ‘무한 드리프트(Unbounded Drift)’를 정의하고, 이를 바탕으로 공격, 메커니즘, 방어를 연결하는 통합적인 프레임워크를 제시한다. 과잉 사고는 작업 목표와 일치하지만 불필요하게 장황하거나 중복된 토큰을 생성해 연산량을 늘리는 형태이며, 무한 드리프트는 생성 경로가 원래 목표와 동떨어져 반복적·비정상적인 루프에 빠져 종료 조건을 상실하는 경우이다. 두 레짐은 출력 길이만으로 구분되지 않으며, 생성 과정의 제어 가능성과 목표 정합성을 기준으로 구분한다. ‘위협 풍경’ 섹션에서는 초기 딥러닝 단계의 공격 사례를 살펴본다. ‘Sloth’는 그래디언트 기반 최적화로 가장 비용이 많이 드는 추론 경로를 강제했으며, ‘Sponge Examples’는 신경 활성화를 교란해 하드웨어 수준에서 에너지 소모를 급증시켰다. 이러한 아이디어는 NMT 분야에서 ‘TrainSlowDown’, ‘NMTSloth’ 등으로 확장돼 EOS 토큰을 지연시켜 시퀀스 길이를 인위적으로 늘렸다. 또한, 백도어 기반의 효율성 타깃 공격이 등장하면서 모델 내부 라우팅·스파스성 로직을 교란하는 ‘Sponge Poisoning’ 등이 제안되었다. LLM에 적용된 공격은 고수준 의미적 프롬프트 변형부터 저수준 파라미터 변조까지 다양하다. ‘Crabs’는 트리 구조 쿼리로 의미 확장을 유도해 출력 길이를 늘리고, ‘ThinkTrap’은 임베딩 공간 최적화를 통해 블랙박스 환경에서도 과도한 토큰 생성을 유도한다. ‘BitHydra’는 하드웨어 수준 비트플립을 이용해 가중치를 변조해 연산 효율을 저하시키며, ‘RepetitionCurse’는 MoE 전문가 라우팅 불균형을 악용해 반복적 생성 오류를 일으킨다. 무한 드리프트 공격은 디코딩 다이내믹스 자체를 조작한다. ‘Fixed Points’와 ‘Attention Sink’는 모델 내부의 고정점이나 어텐션 흐름을 이용해 정상적인 종료를 방해한다. ‘LoopLLM’은 엔트로피 기반 탐색으로 반복 루프를 만들고, ‘GCG’, ‘Engorgio’, ‘LLMEffiChecker’ 등은 핵심 토큰을 교란해 모델이 EOS를 인식하지 못하게 만든다. 이러한 공격은 모델이 스스로 무한히 토큰을 생성하도록 만들며, 서비스 가용성을 크게 저하시킨다. 추론형 LLM(RLLM)에서는 체인‑오브‑생각(Chain‑of‑Thought) 과정이 과잉 사고와 무한 드리프트의 주요 표면이 된다. ‘BadReasoner’, ‘BadThink’ 같은 백도어는 불필요한 추론 단계를 삽입하고, ‘RE‑CUR’는 자체 반사적 루프를 만들어 연산량을 급증시킨다. 멀티모달 LLM(MLLM)에서는 시각 입력 자체가 연산량을 늘리는 트리거가 될 수 있다. ‘Uniform Inputs’, ‘QuantAttack’ 등은 이미지 전처리 단계에서 스파스성 이득을 감소시키고, ‘VLMInferSlow’, ‘EO‑VLM’ 등은 토큰 디코딩을 은밀히 지연시켜 백그라운드 연산을 증가시킨다. ‘LingoLoop’, ‘RECITE’는 이미지‑텍스트 조건부 생성에서 무한 드리프트를 유발한다. 에이전트형 시스템에서는 프롬프트 재전파(CORBA)나 작업 삽입(LeechHijack) 등을 통해 다중 에이전트 간 상호작용을 악용, 서버 자원을 장시간 점유한다. 또한, 컴퓨터 사용 에이전트가 백그라운드 프로세스를 무한히 생성하는 사례도 제시한다. ‘핵심 인사이트’에서는 현재 연구가 백박스 환경에 편중돼 상용 서비스에 대한 검증이 부족하고, 모델 규모가 커짐에 따라 공격 양상이 어떻게 변하는지에 대한 종단적 분석이 부족함을 지적한다. 멀티모달·오디오·비디오 등 비텍스트 모달에 대한 포괄적 위협 모델링이 미비함도 강조한다. 마지막으로 향후 연구 방향으로는 (1) 블랙박스 환경에서도 탐지·완화 가능한 메커니즘 개발, (2) 모델 스케일링에 따른 위협 진화 분석, (3) 크로스모달 연합 방어 체계 구축, (4) 정책·규제 차원의 서비스 설계 가이드라인 제시 등을 제안한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기