희소 겹치는 커뮤니티를 위한 교환가능 랜덤 측정 모델

본 연구는 현대 네트워크 분석에서 빈번히 등장하는 두 가지 난제를 동시에 해결하고자 한다. 첫 번째는 실제 네트워크가 보이는 희소성(sparsity)이다. 전통적인 확률 블록 모델이나 그 변형들은 노드 순서를 무시하는 교환가능성을 가정하면 에지 수가 노드 수의 제곱에 비례하는 밀도 높은 그래프를 생성한다는 한계가 있다(Orbanz & Roy, 2015). 두 번째는 커뮤니티가 겹칠 수 있다는 현실적인 특성이다. 기존의 혼합 블록 모델은 각 노드가 하나의 커뮤니티에만 속하도록 제한하거나, 복잡한 변형을 통해서만 다중 소속을 허용한다(Latouche et al., 2011; Yang & Leskovec, 2013). 이를 극복하기 위해 저자들은 그래프를 교환가능 랜덤 측정(exchangeable random measure, ERM)으로 표현한다. 구체적으로, 각 노드 i는 실수축인 θ_i∈ℝ_+와 p 차원의 비음수 가중치 벡터 w_i=(w_{i1},…,w_{ip}) 로 매핑된다. 이때 (θ_i, w_i) 들은 평균 측정 ν(dw, dθ)=ρ(dw)λ(dθ) 를 갖는 포아송 점 과정에서 독립적으로 추출된다. ρ는 p 차원 Lévy 측정이며, λ는 레벤그 측정(레벤그는 Lebesgue)이다. 연결 확률은 Pr(z_{ij}=1 | w_i, w_j)=1−exp(−2∑_{k=1}^p w_{ik} w_{jk}) 와 같이 정의된다. 이는 비음수 행렬 분해(NMF)와 동일한 형태이며, 각 차원 k가 잠재 커뮤니티를 의미한다. 따라서 w_{ik} 가 클수록 노드 i는 커뮤니티 k에 강하게 소속된 것으로 해석된다. 겹치는 커뮤니티는 여러 w_{ik} 가 동시에 큰 경우로 자연스럽게 모델링된다. 가중치 벡터 w_i는 복합 완전 랜덤 측정(compound CRM) 구조를 통해 생성된다. 기본 CRM W_0=∑_i w_{i0} δ_{θ_i} 은 Lévy 측정 ρ_0 로부터 샘플링되고, 각 커뮤니티별 스코어 β_{ik} 은 사전 분포 F(β) 에서 추출된다. 최종적으로 w_{ik}=β_{ik} w_{i0} 로 정의되며, β_{ik} 의 사전은 γ_k 라는 스케일 파라미터에 의해 지수적으로 변형된 형태를 가진다. 이 계층적 구성은 파라미터 해석을 용이하게 하고, ρ_0 와 F 를 적절히 선택함으로써 그래프의 희소성, 정도 분포의 꼬리, 그리고 커뮤니티 간 상호작용 강도를 조절한다. 수학적으로는 Kallenberg(1990)의 교환가능 랜덤 측정 정리를 이용해, (θ_i, w_i) 들이 순열에 대해 불변임을 보인다. 또한, ρ가 w의 작은 값에 대해 충분히 무거운 꼬리를 가질 경우, 제한된 구간

희소 겹치는 커뮤니티를 위한 교환가능 랜덤 측정 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기