AI 에이전트 스킬 보안, 레포지토리 컨텍스트로 거짓 양성 99% 감소

본 논문은 AI 에이전트가 외부 기능을 확장하기 위해 사용하는 ‘스킬’이라는 모듈형 컴포넌트의 보안 현황을 대규모로 조사한다. 최근 Claude Code, Open Claw 등 자율형 LLM 기반 에이전트가 인기를 끌면서, ClawHub, Skills.sh, SkillsDirectory와 같은 전용 마켓플레이스가 등장했으며, 이들 플랫폼은 자동 스캐너를 통해 스킬을 악성·양성으로 분류한다. 기존 보고서에 따르면 마켓플레이스별 악성 비율이 46.8%(ClawHub)에서 6%(SkillsDirectory)까지 크게 차이나며, 전체적으로도 높은 위험 수준이 제시되고 있었다. 연구팀은 이러한 높은 악성 비율이 과도한 거짓 양성일 가능성을 제기하고, 이를 검증하기 위해 238,180개의 고유 스킬을 수집·분석했다. 수집 대상은 세 개 주요 마켓플레이스와 GitHub 아카이브를 활용한 비공식 레포지토리이며, 중복 제거를 위해 전체 스킬 아티팩트에 SHA‑256 해시를 적용해 유일성을 확보하였다. 수집된 스킬은 SKILL.md 파일과 실행 로직(스크립트, 설정 파일 등)으로 구성된다. 분석은 세 단계로 진행된다. 첫 번째 단계는 ‘크로스‑플랫폼 스킬 수집’으로, 각 마켓플레이스 API와 GHArchive 스냅샷을 이용해 레포지토리를 식별하고, 얕은 클론을 통해 SKILL.md 파일을 추출한다. 두 번째 단계는 ‘악성 분류’로, 마켓플레이스 자체 스캐너 결과, 오픈소스 Cisco Skill Scanner, 그리고 자체 개발한 LLM‑기반 피처 추출 파이프라인을 병행한다. Cisco 스캐너는 정적 분석, 바이트코드 무결성 검사, 파이프라인 명령어 검증, 행동 기반 AST 분석 네 가지 모듈을 제공한다. LLM 기반 분석은 GPT‑5.3 모델을 로컬에서 실행해 25개의 보안 특성을 질문하고, 자동 생성된 보조 스크립트로 파일을 파싱해 네트워크 통신, 데이터 흐름, 영속성, 비밀 노출 등을 평가한다. 세 번째 단계는 ‘레포지토리‑인식 분석’이다. 여기서는 스킬이 포함된 실제 GitHub 레포지토리의 전체 코드를 검토하고, 정규표현식·TruffleHog 기반 비밀 탐지와 URL·IP 추출을 수행한다. 특히 TruffleHog 결과를 원격 API와 연동해 유효한 자격증명인지 자동 검증함으로써, 단순 문자열 매칭에 의존하는 기존 방법보다 높은 정확도를 달성한다. 레포지토리 컨텍스트를 반영한 최종 판단은 기존 마켓플레이스와 Cisco 스캐너가 악성으로 표시한 2,887개 스킬 중 실제 위험이 확인된 비율을 0.52%로 크게 낮춘다. 이는 기존 스캐너가 ‘스킬 설명서에만 기반한’ 판단으로 인해 발생한 거짓 양성이 대부분임을 의미한다. 연구는 또한 새로운 공격 벡터를 발견한다. 방치된(Abandoned) GitHub 레포지토리를 탈취해 기존 스킬 인덱스를 재활용하는 방식으로, 7개의 레포지토리가 121개의 스킬에 영향을 미쳤으며, 그 중 하나는 1,000회 이상 설치된 사례가 있었다. 이는 레포지토리 소유권 변동을 추적하지 못하는 마켓플레이스 구조적 약점이며, 공급망 공격의 새로운 경로를 제시한다. 논문의 주요 기여는 다음과 같다. (1) 238,180개의 고유 스킬을 포함한 가장 큰 크로스‑플랫폼 데이터셋 구축, 향후 장기적 생태계 연구 기반 제공. (2) 레포지토리‑인식 보안 분석 프레임워크 제시, 기존 스캐너 대비 거짓 양성을 99% 이상 감소. (3) 방치 레포지토리 탈취라는 실증적 공격 벡터 제시, 마켓플레이스 운영 정책 및 공급망 방어 전략에 대한 시사점 제공. 연구팀은 코드와 데이터, 분석 파이프라인을 공개하여 재현성을 보장한다. 향후 연구 방향으로는 동적 실행 환경에서의 행동 관찰, 더 다양한 마켓플레이스와 비공식 레포지토리 확대, 레포지토리 소유권 변동을 실시간 감시하는 메커니즘 개발, 그리고 LLM 기반 분석의 정밀도 향상을 위한 프롬프트 최적화 등을 제안한다. 전체적으로, 스킬 보안 평가에 레포지토리 컨텍스트를 도입함으로써 현재 AI 에이전트 생태계의 위험 표면을 보다 정확히 파악하고, 공급망 공격에 대한 사전 방어가 가능함을 입증한다.

AI 에이전트 스킬 보안, 레포지토리 컨텍스트로 거짓 양성 99% 감소

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기