와이파이 트레이스 전용 네트워크 네이티브 기반 모델 플루메

플루메는 802.11 무선 패킷을 PDML 형태로 구조화하고, 프로토콜·타이밍을 인식하는 토크나이저로 6.2배 짧은 시퀀스를 만든 뒤 140 M 파라미터 GPT‑스타일 모델을 학습한다. 다음 패킷 예측 정확도 74‑97%와 이상 탐지 AUROC 0.99 이상을 달성하며, 동일 과제에서 수백 배 큰 LLM과 비슷한 성능을 보이면서 온‑프레미스 배포가 가능하도록 설계되었다.

저자: Swadhin Pradhan, Shazal Irshad, Jerome Henry

와이파이 트레이스 전용 네트워크 네이티브 기반 모델 플루메
본 논문은 무선 네트워크 트레이스, 특히 802.11 패킷 교환을 대상으로 하는 ‘네이티브’ 기반 파운데이션 모델인 플루메(PLUME)를 제안한다. 저자들은 먼저 무선 패킷이 텍스트와 달리 레이어드 헤더, 타입드 필드, 타이밍 갭, 그리고 패킷 간 상태 머신 전이 등 복합적인 구조를 가진다는 점을 지적한다. 이러한 특성을 무시하고 일반 LLM에 평탄화된 문자열을 입력하면 프로토콜 의미를 충분히 학습하지 못한다는 한계를 제시한다. 플루메는 세 가지 주요 설계 축을 중심으로 구축된다. 첫 번째는 데이터 표현이다. Wireshark·tshark가 제공하는 PDML(패킷 설명 마크업 언어) 파일을 학습의 기본 단위로 삼아, 필드 이름, 타입, 계층 구조를 그대로 보존한다. PDML은 원시 PCAP보다 구조화된 형태이면서도 재해석이 가능하도록 설계돼, 토큰화 단계에서 의미 있는 경계 정보를 손실하지 않는다. 두 번째는 프로토콜‑인식 토크나이저이다. 기존 BPE나 바이트‑단위 토크나이저는 필드 경계를 무시하고 긴 시퀀스를 생성해 모델의 컨텍스트 효율을 저하시킨다. 플루메의 토크나이저는 (i) 필드 트리를 따라 토큰을 분리하고, (ii) 패킷 간 도착 시간 차이를 ‘gap’ 토큰으로 삽입해 시간 정보를 명시적으로 표현한다. 또한 MAC 주소, IP 주소, SSID 등 식별자는 정규화해 고유값을 암기하는 대신 구조적 패턴을 학습하도록 만든다. 문자열 필드는 인간 언어와 동일한 BPE 서브워드 토크나이저를 적용해 가독성을 유지하고, 심볼 필드는 의미 있는 이름(예: ACK)으로 변환한다. 숫자값은 원시 형태를 유지하면서 범위‑의미 매핑을 사후 학습에 활용한다. 이러한 설계는 BPE 대비 6.2배 짧은 시퀀스를 만들고, 토큰당 정보 밀도를 크게 높인다. 세 번째는 데이터 품질 관리이다. 무선 네트워크는 비콘 프레임이 대다수를 차지해 데이터셋이 심각히 편향된다. 저자들은 HDBSCAN 기반 클러스터링과 Maximal Marginal Relevance(MMR) 샘플링을 결합해, 동일한 비콘·유지‑alive 메시지를 대폭 축소하고, 희귀 이벤트와 정상 트래픽을 균형 있게 포함한다. 이 과정에서 비콘 비중을 50% 이상에서 4.7%로 낮추고, 토큰 엔트로피는 7.6 bits를 유지한다. 모델 아키텍처는 140 M 파라미터 GPT‑스타일 오토레그레시브 구조를 채택했으며, 200 packet/s 정도의 처리량을 단일 NVIDIA A10G GPU에서 달성한다. 학습은 Causal Language Modeling(CLM) 방식으로 진행돼, 다음 패킷을 예측하거나 특정 필드의 이상 여부를 판단하는 두 가지 작업에 모두 활용 가능하다. 평가에서는 5가지 실제 802.11 장애 시나리오(인증 실패, EAPOL 타임아웃, PMKID 불일치, 프레임 손실, 채널 충돌 등) 각각 50개 PCAP를 사용해 다음 패킷 토큰 정확도를 측정했다. 결과는 74.1%~97.3% 범위이며, 제로샷 이상 탐지 AUROC는 0.99 이상을 기록했다. 또한 동일 입력을 제공한 최신 LLM(Claude Opus 4.6, GPT‑5.4)과 비교했을 때, 플루메는 600배 적은 파라미터로 비슷하거나 더 높은 정확도를 보였다. 이는 프로토콜‑네이티브 토크나이저와 고품질 데이터가 대규모 LLM 대비 효율적인 도메인 특화 모델을 만들 수 있음을 입증한다. 시스템 관점에서 플루메는 API 형태로 호출 가능하도록 설계돼, 온‑프레미스 환경에서 개인정보 보호와 비용 절감 효과를 제공한다. 플루메는 입력 PDML을 받아 구조화된 요약, 필드 불일치 플래그, 그리고 원인 가설(예: “PMF 불일치”, “PS‑mode 버퍼링”)을 반환한다. 이러한 설계는 멀티‑에이전트 RCA 워크플로우에 자연어 인터페이스를 제공하면서도, 원시 패킷 데이터를 외부에 노출하지 않는다. 결론적으로, 플루메는 (1) 프로토콜‑인식 토크나이저, (2) 데이터 품질 중심의 커리레이션 파이프라인, (3) 경량 오토레그레시브 모델이라는 세 축을 통해 무선 트레이스 분석에 특화된 파운데이션 모델을 구현했으며, 실제 네트워크 운영에서 실시간 루트 원인 분석 및 이상 탐지에 적용 가능한 실용적인 솔루션을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기