소프트웨어 엔트로피 파동변환으로 악성코드 탐지 혁신

본 논문은 실행 파일을 엔트로피 신호로 변환하고, Haar 파동변환을 이용해 다중 해상도에서 에너지 스펙트럼을 추출한다. 이를 기반으로 단일 스코어인 SSECS(의심스러운 구조적 엔트로피 변화 점수)를 정의해 악성 여부를 예측한다. 실험 1에서는 단일 특성만으로 정확도를 50 %→68.7 %로 향상시켰으며, 실험 2에서는 문자열·엔트로피 특징에 파동변환 기반 피처를 추가해 99 %에 육박하는 검출률과 1 % 미만의 오탐률을 달성했다.

저자: Michael Wojnowicz, Glenn Chisholm, Matt Wolff

소프트웨어 엔트로피 파동변환으로 악성코드 탐지 혁신
본 논문은 악성코드 탐지를 위한 새로운 피처 추출 방법을 제안한다. 저자들은 실행 파일을 바이트 청크(보통 256 바이트) 단위로 나누어 각 청크의 엔트로피를 계산하고, 이를 파일 위치에 따라 배열한 ‘엔트로피 스트림’을 만든다. 엔트로피 스트림은 파일 내부의 코드, 압축, 암호화, 패딩 등 다양한 구간이 교차하면서 나타나는 엔트로피 변동을 시각화한다. 이러한 변동을 정량화하기 위해 Haar 파동변환을 적용한다. Haar 파동은 가장 단순한 형태의 직사각형 파동으로, 신호를 여러 해상도(j)에서 상세 계수(dₖ,ⱼ)로 분해한다. 각 해상도에서의 상세 계수는 인접 청크 간 평균 엔트로피 차이를 나타내며, 이를 제곱합해 에너지 Eⱼ를 구한다. Eⱼ들의 집합은 파일 전체에 걸친 다중 스케일 엔트로피 구조를 압축한 벡터이며, 악성 파일은 고해상도에서 높은 에너지를, 정상 파일은 저해상도에서 에너지가 집중되는 경향을 보인다. 하지만 실행 파일의 길이는 크게 다르기 때문에, 저자들은 파일 길이에 따라 그룹을 나눈 뒤, 각 그룹별로 동일한 차원의 에너지 스펙트럼을 만든다. 그룹화는 j = ⌊log₂ T⌋ 로 정의되며, T는 엔트로피 스트림 길이이다. 각 그룹에 대해 로지스틱 회귀 모델을 학습하고, 회귀 계수 βⱼ와 에너지 Eⱼ의 내적을 통해 파일의 악성 확률 bₚ를 계산한다. 이 확률 자체를 ‘Suspiciously Structured Entropic Change Score (SSECS)’라 명명한다. SSECS는 단일 실수값으로 파일의 의심 정도를 나타내며, 별도의 임계값 없이 바로 분류에 활용할 수 있다. 실험 1에서는 39,968개의 포터블 실행 파일(반반 악성·정상)을 사용해 SSECS 하나만으로 악성 여부를 예측했다. 결과는 정확도 68.7 %와 ROC‑AUC 0.687을 기록했으며, 이는 기존 평균 엔트로피 기반 모델(≈50 %)에 비해 크게 향상된 수치다. 실험 2에서는 대규모 데이터셋에 문자열 피처(ngrams)와 엔트로피 피처를 결합하고, 파동변환 기반 에너지 피처를 추가했다. 모델은 로지스틱 회귀(표준 및 정규화)와 XGBoost 등 다양한 분류기를 사용했으며, 파동변환 피처를 포함했을 때 검출률이 일관되게 상승했다. 구체적으로, 문자열만 사용했을 때 80.90 %→82.97 %(FPR 0.1 %), 문자열+엔트로피 조합에서는 92.10 %→94.74 %(FPR 0.1 %) 및 98.63 %→98.90 %(FPR 0.01 %)로 개선되었다. 또한, 파동변환 피처만으로도 거의 99 %에 달하는 검출률을 달성했으며, 오탐률은 1 % 이하에 머물렀다. 논문의 주요 기여는 다음과 같다. ① 엔트로피 변동의 다중 스케일 구조를 정량화하는 SSECS를 도입해 단일 피처만으로도 강력한 악성 탐지 성능을 확보했다. ② Haar 파동변환을 이용해 계산량이 적고, 실시간 탐지 시스템에 적용 가능한 피처를 제공했다. ③ 파일 길이 차이를 그룹화와 로지스틱 회귀로 보정함으로써, 비정형 데이터에서도 일관된 피처 표현을 유지했다. ④ 기존 문자열·엔트로피 피처와 결합했을 때 검출률과 오탐률 모두 현저히 개선되었다. 한편, 제한점도 존재한다. Haar 파동은 가장 단순한 파동이므로, 더 복잡한 파동(예: Daubechies, Symlet)이나 다중 해상도 윈도우링 기법이 성능에 미치는 영향을 탐색하지 않았다. 청크 크기(256 바이트)와 파동 변환 파라미터가 고정되어 있어, 다른 파일 포맷이나 압축 방식에 대한 민감도가 평가되지 않았다. 데이터는 Cylance 내부 레포지토리에서 수집된 것이므로, 외부 벤치마크(예: VirusShare, Malicia)와의 일반화 검증이 필요하다. 또한, 악성코드 제작자들이 엔트로피 변동을 의도적으로 평탄화하거나, 파동변환에 대응하는 회피 기법을 개발할 가능성도 있다. 향후 연구 방향으로는 (1) 다양한 파동 함수와 가변 청크 크기를 실험해 최적의 피처 조합을 찾는 작업, (2) 실시간 엔드포인트 탐지를 위한 경량 구현 및 하드웨어 가속, (3) 다른 정적 분석 피처(예: PE 헤더, API 호출)와의 융합, (4) 적대적 공격에 대한 견고성 평가가 제시된다. 결론적으로, 소프트웨어 엔트로피의 다중 스케일 구조를 파동변환으로 정량화한 SSECS는 악성코드 탐지에 있어 강력하고 효율적인 피처이며, 기존 정적 분석 파이프라인에 손쉽게 통합될 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기