실제 도구 환경에서 LLM 에이전트 권한 사용 평가

본 논문은 LLM 기반 에이전트가 실제 도구와 연동될 때 발생하는 권한 남용 위험을 체계적으로 평가하기 위한 새로운 샌드박스 프레임워크 GrantBox를 제안한다. 기존 연구들은 사전 코딩된 제한된 툴 세트와 정형화된 인터랙션 패턴에 의존해 실제 서비스 환경과의 격차가 컸다. GrantBox는 세부적으로 다음과 같은 구조적 특징을 갖는다. 1. **MCP 서버 매니저** – 사용자는 서버 소스 URL, 의존성 설치 명령, 실행 명령, 환경 변수만 제공하면 매니저가 자동으로 컨테이너 내부에 서버를 배포하고, 포트·프로세스 상태를 지속 모니터링한다. 장애 발생 시 자동 재시작·컨테이너 재구축을 수행해 평가 환경의 일관성을 보장한다. 2. **요청 생성기** – 알고리즘 1에 따라 MCP 서버 집합에서 무작위로 서브셋을 선택하고, 선택된 서버가 제공하는 툴 집합을 기반으로 LLM에게 구체적인 작업 요청을 생성하도록 한다. benign 요청은 2~5개의 서버를 조합해 평균 5.67개의 툴을 사용하도록 설계돼 복합적인 권한 체인을 요구한다. 악성 요청은 프롬프트 인젝션 형태로 최소 1~2개의 서버만 이용해 “데이터 탈취”, “인프라 파괴”, “워크스페이스 변조”, “리소스 고갈” 등 다섯 가지 공격 목표를 포함한다. 동일 툴·의도 중복을 방지하기 위해 SameIntent 검사를 수행해 평가 세트의 다양성을 확보한다. 3. **MCP 서버 샌드박스** – SSE‑Stdio Proxy를 이용해 다양한 전송 방식을 HTTP 엔드포인트로 정규화하고, 외부 요청 로거를 통해 툴 호출·인증 흐름을 세밀하게 기록한다. 악성 요청이 시스템에 미치는 부작용을 격리하기 위해 컨테이너 기반 복구 메커니즘을 제공한다. 실험 설정은 다음과 같다. 10개의 실제 MCP 서버(클라우드 인프라 관리, 데이터베이스, 이메일, 파일시스템 등)와 122개의 권한‑민감 툴을 사전 통합했다. 이를 바탕으로 100개의 benign 요청과 50개의 악성 요청을 자동 생성했으며, 각 benign 요청당 5개의 인젝션 페이로드를 조합해 총 500개의 공격 시나리오를 만든다. 평가 대상 LLM은 GPT‑5, Gemini‑3‑Flash, Qwen‑3‑Max, DeepSeek‑V3 네 종류이며, 두 가지 에이전트 실행 모드(ReAct, Plan‑and‑Execute)를 적용했다. 평가 결과는 다음과 같다. ReAct 모드에서는 모든 모델이 90 % 이상 높은 공격 성공률(ASR)을 기록했으며, 특히 GPT‑5와 Gemini‑3‑Flash는 91 % 수준으로 거의 완전한 권한 탈취를 허용했다. Plan‑and‑Execute 모드에서는 사전 계획 단계가 일부 방어 효과를 주었지만, 평균 ASR이 여전히 79 %에 달했다. 이는 현재 LLM이 “명시적 위험”(예: 데이터베이스 삭제) 정도는 인식하지만, 복합적인 툴 체인과 은밀한 프롬프트 변조를 구분하지 못한다는 근본적인 보안 인식 부족을 의미한다. 툴 사용 로그 분석 결과, 성공적인 공격은 대부분 인증 토큰·액세스 키가 노출된 상태에서 수행되었으며, 권한 최소화 원칙(least‑privilege)이 적용되지 않은 점이 취약점의 주요 원인으로 지목된다. GrantBox는 이러한 권한 흐름을 정량화하고, 자동 복구·재배포 기능을 통해 실험 환경을 안전하게 유지하면서 대규모 평가를 가능하게 한다. 결론적으로, GrantBox는 기존 벤치마크가 제공하던 제한된 시뮬레이션을 넘어 실제 서비스와 동일한 권한 모델을 적용함으로써 LLM‑에이전트의 보안 취약성을 정밀하게 측정한다. 현재 상용 LLM은 복합적인 권한 사용 시나리오에 대한 방어 메커니즘이 미비하며, 향후 연구는 프롬프트 검증, 툴 호출 제한, 권한 최소화 정책 적용 등을 통해 에이전트 보안을 강화해야 함을 시사한다.

실제 도구 환경에서 LLM 에이전트 권한 사용 평가

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기