스팸 수집자 네트워크 분석: 스펙트럴 클러스터링을 통한 사회적 구조 탐색

본 논문은 스팸 사이클의 첫 번째 단계인 주소 수집(harvesting) 과정에 초점을 맞추어, 스팸 수집자(harvester)들의 행동 유사성을 기반으로 사회적 네트워크를 밝혀내고자 한다. 기존 연구들은 주로 스팸 내용 분석이나 발송 서버(IP) 기반 필터링에 머물렀으며, 수집 단계에서의 행동 패턴은 거의 다루지 않았다. 그러나 스팸 발송자는 수집 단계에서 자신의 정체를 비교적 드러내는 경향이 있어, 이를 통해 새로운 인사이트를 얻을 가능성이 있다. 데이터는 Project Honey Pot에서 제공한 대규모 트랩 시스템을 이용하였다. 트랩 페이지에 삽입된 가짜 이메일 주소는 인간 방문자에게는 보이지 않으며, 자동 수집 봇만이 접근한다. 각 봇이 트랩을 방문하면 고유 주소가 생성되고, 해당 봇의 IP가 기록된다. 이후 해당 주소로 스팸이 도착하면 이메일 헤더에 포함된 발송 서버 IP와 함께 수집자 IP가 매칭된다. 2004년 10월부터 2009년 2월까지 누적된 데이터에는 35 백만 개 이상의 트랩 주소, 59 천 명 이상의 수집자, 39 백만 개 이상의 스팸 서버가 포함된다. 특히 2006년 10월에 스팸 양이 급증한 현상이 관찰되어, 이 시기를 중심으로 월별 분석을 수행하였다. 스팸 이메일을 피싱과 비피싱으로 구분하기 위해, 이메일 제목에 흔히 사용되는 피싱 키워드(예: “password”, “account”, “PayPal”, “Chase”)를 사전 정의하였다. 전체 스팸 중 약 3.5 %가 피싱으로 분류되었으며, 각 수집자의 피싱 비율(피싱 레벨)을 계산하였다. 흥미롭게도 대부분의 수집자는 피싱 레벨이 0.1 이하이거나 0.9 이상으로 이분법적 분포를 보였으며, 이를 기준으로 0.5 이상을 피싱 전용, 이하를 비피싱 전용으로 라벨링하였다. 결과적으로 전체 수집자의 약 18 %가 피싱 전용으로 식별되었다. 클러스터링 방법으로는 스펙트럴 클러스터링을 채택하였다. 먼저 두 종류의 유사도 행렬을 만든다. (1) 스팸 서버 사용 유사도: 수집자 i가 스팸 서버 j를 통해 보낸 이메일 수 p_ij를, 해당 서버 전체 이메일 수 d_j와 수집자 i가 확보한 주소 수 e_i로 정규화한 h_ij = p_ij/(d_j·e_i) 로 정의한다. H 행렬의 각 행은 수집자의 서버 사용 비율을 나타내며, 두 행 간 내적이 바로 w_ij(유사도)이다. (2) 시간적 유사도: 각 수집자의 이메일 전송 타임스탬프를 1시간 구간으로 binning하여 빈도 벡터를 만든 뒤, 코사인 유사도로 w_ij를 산출한다. 이렇게 만든 인접 행렬 W를 기반으로 정규화 컷(Ncut) 최소화를 목표로 하는 스펙트럴 클러스터링을 수행한다. 클러스터 수 K는 고유값 스펙트럼에서 λ₁…λ_K가 1에 가깝고 λ_{K+1}이 급격히 떨어지는 지점을 찾아 결정하였다. 분석 결과, 주요 클러스터는 2~4개 정도로 구분되었으며, 각 클러스터 내부에서는 다음과 같은 특징이 나타났다. 첫째, 피싱 전용 수집자와 비피싱 전용 수집자는 거의 별개의 클러스터에 속했다. 피싱 클러스터는 상대적으로 작지만, 동일 스팸 서버를 공유하는 비율이 높아 자원(스팸 서버) 공유 네트워크로 해석된다. 둘째, 특정 클러스터에서는 10여 개의 수집자가 동일한 /24 서브넷(IP 프리픽스)을 공유했으며, 이들은 2006년 10월에 동시에 대량 스팸을 전송하는 패턴을 보였다. 이는 동일 물리적 위치 혹은 동일 조직이 운영하는 다수의 봇이 협업하고 있음을 의미한다. 셋째, 시간적 유사도 기반 클러스터링에서도 비슷한 결과가 나타났으며, 특정 시간대에 집중적으로 활동하는 수집자 그룹이 존재함을 확인했다. 이러한 발견은 스팸 발송자들이 무작위적으로 행동하지 않고, 수집 단계부터 일정한 사회적 연결망을 형성한다는 가설을 뒷받침한다. 특히 피싱 전용 수집자들이 작은 규모의 고밀도 클러스터를 이루는 점은, 피싱 캠페인이 조직화된 소규모 팀에 의해 수행될 가능성을 시사한다. 또한, IP 주소와 시간대가 유사한 그룹은 물리적 혹은 관리적 연계가 있음을 암시한다. 논문의 한계점으로는 (1) 수집자와 실제 스팸 발송자를 1:1 매핑하지 못한다는 점이다. 하나의 수집자가 여러 스팸 발송자를 지원하거나, 반대로 하나의 스팸 발송자가 여러 수집자를 이용할 수 있다. (2) 트랩 주소가 자동 수집 봇에만 노출되므로, 인간이 직접 웹 페이지를 탐색해 주소를 수집하는 경우는 분석에서 제외된다. (3) 데이터는 2009년 이전의 것이며, 현재 스팸 생태계는 클라우드 기반 발송, 도메인 프론트 등 새로운 기술이 도입되어 있어 직접적인 적용에는 한계가 있다. 향후 연구 방향으로는 (a) WHOIS, ASN, 지리적 위치 정보와 결합해 수집자 클러스터의 실제 조직 구조를 밝히는 작업, (b) 실시간 스트리밍 데이터를 활용해 클러스터 변화를 모니터링하고, 급증하는 스팸 캠페인을 조기에 탐지하는 시스템 구축, (c) 피싱 외에도 악성코드 배포, 스팸 광고 등 다양한 스팸 유형을 포함한 다중 라벨링을 통해 보다 정교한 커뮤니티 분석을 수행하는 것이 제안된다. 결론적으로, 본 연구는 스팸 수집 단계의 행동 데이터를 활용해 스펙트럴 클러스터링으로 의미 있는 커뮤니티를 식별함으로써, 스팸 발송자들 사이에 존재하는 사회적 구조를 최초로 실증하였다. 이는 스팸 방어 전략에 새로운 시각을 제공하며, 향후 보다 정교한 네트워크 기반 차단 및 추적 기법 개발에 기여할 수 있다.

스팸 수집자 네트워크 분석: 스펙트럴 클러스터링을 통한 사회적 구조 탐색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기