AI 에이전트의 다단계 사이버 공격 능력 급상승

본 논문은 32단계 기업 네트워크 공격 시나리오와 7단계 산업 제어 시스템(ICS) 공격 시나리오를 통해 최신 대형 언어 모델들의 자율 사이버 공격 성능을 평가한다. 추론 시 토큰 사용량(컴퓨팅 비용)과 모델 세대가 증가함에 따라 공격 단계 완성도가 로그-선형적으로 향상되며, 2024년 8월 출시된 GPT‑4o부터 2026년 2월 출시된 Opus 4.6까지 평균 완성 단계가 1.7→9.8 단계(10 M 토큰)로 크게 늘었다. 최고 실행에서는 3…

저자: Linus Folkerts, Will Payne, Simon Inman

AI 에이전트의 다단계 사이버 공격 능력 급상승
**1. 연구 배경 및 목적** AI 시스템이 점점 고도화됨에 따라, 자율적인 사이버 공격 능력이 실제 위협으로 전이될 가능성이 커지고 있다. 기존 연구는 CTF나 질문‑응답 형태의 단일 과제에 초점을 맞췄지만, 실제 공격은 다단계, 장기적인 상태 추적, 오류 복구가 필요하다. 본 논문은 이러한 격차를 메우기 위해 두 개의 맞춤형 사이버 레인지—기업 네트워크 공격 시나리오 ‘The Last Ones’(32단계)와 산업 제어 시스템 공격 시나리오 ‘Cooling Tower’(7단계)—를 구축하고, 최신 대형 언어 모델 7종을 다양한 추론‑시간 토큰 예산(10 M, 100 M) 하에 평가한다. **2. 실험 설계** - **모델**: GPT‑4o(2024‑08), Sonnet 3.7(2025‑02), Sonnet 4.5(2025‑09), 5.1 Codex(2025‑11), Opus 4.5(2025‑11), 5.3 Codex(2026‑02), Opus 4.6(2026‑02). - **토큰 예산**: 10 M 토큰(짧은 실행)과 100 M 토큰(긴 실행, 컨텍스트 압축 포함) 두 수준. 각 모델·예산 조합에 대해 5~10회 실행. - **측정 지표**: 완료된 공격 단계 수(평균·최대), 토큰 효율성(단계당 토큰), 전문 기술 깊이(고난이도 단계 진행 여부), 변동성(최소·최대 차이), 비용(USD). - **에이전트 설계**: 모델에 시스템 프롬프트와 도구 호출 인터페이스(예: Mythic C2)를 제공하고, 자동화된 로그 분석기로 행동을 평가. **3. 주요 결과** - **추론‑시간 컴퓨팅과 성능의 로그‑선형 관계**: 토큰 수가 10 M→100 M으로 10배 증가할 때, Opus 4.6은 평균 15.6단계(최대 22단계)까지 도달, 이는 59% 성능 향상에 해당한다. 대부분의 모델은 토큰 제한에 도달하기 전까지도 목표 지향적인 명령을 지속했다. - **모델 세대별 지속적 향상**: 동일 토큰 예산에서 최신 모델이 더 많은 단계를 완료한다. 예를 들어, 10 M 토큰에서 GPT‑4o는 1.7단계, Opus 4.6은 9.8단계(≈5.8배)다. 100 M 토큰에서는 Opus 4.5(11단계)→Opus 4.6(15.6단계)로 42% 상승. - **전문 기술 깊이와 토큰 효율성**: Opus 4.6은 초기 정찰 단계(마일스톤 2)를 2 M 토큰에 도달하는 높은 효율성을 보였으며, NTLM 릴레이(마일스톤 4)와 같은 실시간 프로세스 조정이 필요한 단계도 안정적으로 극복했다. 반면 GPT‑4o는 마일스톤 2 이후 완전히 정체했다. - **변동성**: 동일 모델·예산에서도 최저 11단계, 최고 22단계 차이가 발생. 이는 실행 전략(컨텍스트 압축 빈도, 재시도 여부)과 초기 프롬프트 설정이 성능에 큰 영향을 미침을 시사한다. - **ICS 시나리오 ‘Cooling Tower’**: 대부분 모델이 10 M 토큰에서 평균 0단계, 100 M 토큰에서도 평균 1.2–1.4단계(최대 3단계)만 수행. 단계당 작업량이 크고 의존 관계가 복잡해 모델이 장기 목표를 유지하기 어려웠다. 흥미롭게도 일부 모델은 설계된 경로를 우회해 PLC 프로토콜을 직접 탐색·버그를 이용해 인증 없이 메모리를 읽는 등 인간 전문가와 다른 탐색 방식을 보였다. - **프롬프트 및 시스템 프롬프트 보강 효과**: 고수준 가이드라인 추가, 예시 대화 프리필링, 툴 호출 실패 감소를 위한 시스템 프롬프트 보강을 실험했지만, 전체 단계 완료 수에는 유의미한 향상이 없었다. 다만 툴 호출 실패 감소는 토큰 낭비를 줄였음. **4. 추가 실험 및 분석** - **다양한 시작점**: 공격 체인의 중간 마일스톤에서 시작하도록 하여, 부분적인 인간 감독 상황을 모의. 모델은 대부분의 영역에서 진행 가능했으며, 이는 비전문가가 AI 에이전트를 활용해 공격 일부를 가속화할 수 있음을 시사한다. - **행동 메트릭**: 고유 서비스 탐색 수, 탐색 대비 활용 비율, 자격 증명 사용 패턴 등을 자동 분석했지만, 성능을 예측할 수 있는 명확한 모델은 도출되지 않았다. - **운영 보안 점수**: 진행 단계가 늘어날수록 트리거되는 알림 수가 증가했으며, 동일 진행도에서도 모델마다 알림 양상이 달랐다. 현재 방법론으로는 의미 있는 비교 기준을 제시하기 어려움. **5. 논의 및 한계** - **컴퓨팅 비용 vs. 성능**: 토큰 예산을 늘리는 것이 가장 쉬운 성능 향상 경로이며, 이는 기술 수준이 낮은 공격자도 활용 가능함을 의미한다. - **전문 기술 한계**: 고난이도 역공학·암호 해독·악성코드 제작 단계는 아직 모델마다 큰 격차가 존재한다. 특히 산업 제어 시스템과 같이 복합적인 의존 관계가 있는 환경에서는 인간 수준의 자율성이 부족하다. - **전략적 변동성**: 최적의 실행 전략(긴 실행 vs. 다수 짧은 실행)과 프롬프트 설계가 성능에 미치는 영향이 아직 불명확하다. - **실제 적용 위험**: 모델이 자동으로 탐지 회피나 물리적 시스템 파괴까지 진행할 가능성은 현재로서는 제한적이지만, 추론 비용이 감소하고 모델 능력이 지속적으로 향상됨에 따라 위험 수준은 급격히 상승할 수 있다. **6. 결론** 본 연구는 최신 대형 언어 모델이 32단계 기업 네트워크 공격을 상당 부분 자동화할 수 있음을 입증했으며, 토큰 예산을 늘리면 성능이 로그‑선형적으로 향상된다는 중요한 패턴을 발견했다. 그러나 산업 제어 시스템과 같은 복합적인 시나리오에서는 아직 제한적인 성과에 머물러 있다. 향후 연구는 (1) 효율적인 컨텍스트 관리와 실행 전략 최적화, (2) 고난이도 전문 기술을 강화한 모델 설계, (3) 실시간 탐지 회피와 물리적 피해를 포함한 위협 모델링을 통해 AI 기반 사이버 공격 위험을 보다 정밀하게 평가해야 한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기