측정 공간 임베딩을 이용한 겹침 커뮤니티 탐지
본 논문은 무작위 워크 기반 측정 공간에 그래프를 임베딩하고, 해당 공간에서 수정된 k‑means를 수행하는 DER( Diffusion Entropy Reducer) 알고리즘을 제안한다. 알고리즘은 선형 시간 복잡도를 가지며, 겹침 커뮤니티와 비겹침 커뮤니티 모두에 대해 기존 최첨단 방법과 동등하거나 우수한 성능을 보인다. 또한 p,q‑Stochastic Block Model에서의 이론적 복원 보장을 제공한다.
저자: Mark Kozdoba, Shie Mannor
본 논문은 그래프의 커뮤니티 구조를 탐지하기 위한 새로운 알고리즘 DER(Diffusion Entropy Reducer)을 제안한다. DER은 두 단계로 구성된다. 첫 번째 단계에서는 그래프의 각 정점 i에 대해 길이 L의 무작위 워크를 수행하고, 그 결과 얻은 전이 확률 분포 w_i 를 평균화한다. 이때 w_i 는 t=1,…,L 단계에서의 전이 행렬 T^t 의 i번째 행을 평균한 것으로, 정점 i에서 시작한 워크가 t 단계 후 도달할 확률 분포들의 평균을 의미한다. 정점의 차수 d_i 로 가중치를 부여함으로써, 측정 공간에서 각 정점은 (w_i , d_i) 라는 형태의 점으로 표현된다.
두 번째 단계에서는 이러한 측정들을 대상으로 수정된 k‑means 클러스터링을 수행한다. 거리 함수 D(ν,µ)=∑_v ν(v)log µ(v) 를 사용하여, 각 군집 l의 평균 분포 µ_l 를 정의하고, 정점 i를 µ_l 와의 D 값이 최대가 되는 군집에 할당한다. 비용 함수 C=∑_{l=1}^k∑_{i∈P_l} d_i D(w_i,µ_l) 은 실제로 C=−|V|·H(Y|Z) 로 변환될 수 있다. 여기서 Y는 현재 정점에서 한 단계 이동한 뒤의 확률 분포, Z는 정점이 속한 군집을 나타낸다. 따라서 알고리즘은 군집 Z와 다음 단계 Y 사이의 조건부 엔트로피를 최소화함으로써, 군집 내부의 랜덤 워크가 외부로 흐르는 확률을 최소화한다. 이는 기존 모듈러리티 최적화나 스펙트럴 클러스터링이 절단(edge cut)을 직접 최소화하는 접근과 달리, 절단을 정규화된 엔트로피 형태로 다루어 작은 군집이 과도하게 분리되는 현상을 방지한다.
이론적 분석에서는 p,q‑Stochastic Block Model(SBM)에서 p≥c·N^{−1/2+ε} 와 p−q≥c'·√{p·N^{−1/2+ε}·log N} 라는 조건 하에, DER이 고확률로 정확한 군집 복원을 수행함을 증명한다. 특히 k=2, |P_1|=|P_2| 인 경우에 한 번의 k‑means 업데이트만으로도 정확한 복원이 가능함을 보이며, 이는 기존 선형 시간 알고리즘이 요구하던 더 강한 조건보다 완화된 것이다. 증명은 측정 공간에서의 거리 D가 확률적 상한을 갖고, 군집 평균 µ_l 이 실제 커뮤니티의 정규화된 차수 분포와 근접함을 이용한다. 또한, 알고리즘은 유한한 군집 구성 수에 대해 반드시 수렴하고, 비용 C가 매 반복마다 엄격히 증가함을 보인다.
실험에서는 LFR 벤치마크와 실제 네트워크(카라테 클럽, 정치 블로그)를 사용하였다. 비겹침 커뮤니티 탐지에서는 k=2, L∈
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기