소셜 네트워크 링크 예측을 위한 지도학습 랜덤 워크

**1. 연구 배경 및 문제 정의** 링크 예측은 주어진 시점 t 의 네트워크 스냅샷을 바탕으로, 미래 t′ 에 새로 형성될 엣지를 미리 추정하는 과제이다. 소셜 네트워크에서는 사용자 프로필(연령, 성별, 거주지)과 상호작용 기록(메시지 수, 사진 공유 횟수) 등 풍부한 속성이 존재하지만, 기존 연구는 주로 구조적 지표(공통 이웃, 짧은 경로)만을 활용하거나, 속성을 별도 특징으로 추출해 전통적인 머신러닝 모델에 입력하는 방식을 취한다. 이러한 접근은 (i) 특성 설계에 대한 도메인 지식 의존, (ii) 클래스 불균형(전체 정점 대비 양성 정점 비율이 극히 낮음) 문제, (iii) 대규모 그래프에 대한 확장성 한계에 직면한다. **2. 제안 방법: 지도학습 랜덤 워크(Supervised Random Walk, SRW)** SRW는 다음과 같은 흐름으로 구성된다. - **엣지 특성 정의**: 각 엣지 (u,v) 에 대해 노드 u, v 의 속성 및 엣지 자체의 메타데이터를 결합한 벡터 ψ_uv 를 만든다. - **전이 확률 함수 f_w**: 파라미터 w (예: 선형 가중치 wᵀψ_uv 또는 신경망)로 정의된 함수 f_w(ψ_uv) 가 엣지 강도 a_uv 를 산출한다. 이 강도는 확률적 전이 행렬 P(w) 의 비례값으로 사용된다(정규화는 각 출발 정점 u 에 대해 수행). - **랜덤 워크 with Restart**: 소스 정점 s 에서 시작해 재시작 확률 α (보통 0.15)로 매 단계 s 로 돌아가며 무한히 진행한다. 정류 분포 π_s(w) 는 π_s = (1‑α)·e_s + α·π_s·P(w) 를 만족한다. - **학습 목표**: 양성 집합 D (미래에 연결될 정점)과 음성 집합 L (연결되지 않을 정점) 사이에 π_s(w) 가 순위상으로 D > L 을 만족하도록 손실 ℓ(w) = ∑_{d∈D, l∈L} σ(π_s(l)‑π_s(d)) (σ는 힌지 혹은 로짓 손실) 를 최소화한다. - **그래디언트 계산**: 정류 방정식에 양변 미분을 적용하면 ∂π_s/∂w = α·∂π_s/∂w·P(w) + α·π_s·∂P(w)/∂w 가 된다. 이 선형 방정식을 반복적으로 풀어 ∂π_s/∂w 를 얻고, 이를 손실의 그래디언트에 연결한다. 희소 행렬 연산과 파워 메서드 유사한 반복을 이용해 계산 비용을 O(|E|) 로 유지한다. **3. 알고리즘 구현 및 최적화** - **파라미터 초기화**: w 는 무작위 혹은 사전 학습된 로지스틱 회귀 가중치로 초기화한다. - **정규화**: ℓ₂ 정규화와 드롭아웃(비선형 f_w 사용 시)을 적용해 과적합을 방지한다. - **미니배치 학습**: 대규모 그래프에서는 소스 정점 s 별로 배치를 구성하고, 각 배치에 대해 위의 그래디언트를 계산한다. - **수렴 기준**: 검증 집합에서 AUC가 0.001 이하로 변동하면 학습을 종료한다. **4. 실험 설정** - **데이터**: (1) Facebook 친구 네트워크 (≈5 × 10⁶ 정점, 2 × 10⁸ 엣지) – 사용자 프로필과 메시지 교환 로그 포함. (2) DBLP·ArXiv 협업 네트워크 – 논문 공동 저자 관계와 발표 연도, 키워드 등 메타데이터 활용. - **베이스라인**: Adamic‑Adar, Common Neighbors, Preferential Attachment, 무지도 Random Walk with Restarts, 그리고 특징 기반 로지스틱 회귀/Gradient Boosted Trees. - **평가 지표**: AUC, Precision@K (K=10, 20, 50), Recall@K, MAP. **5. 주요 결과** - SRW는 모든 베이스라인 대비 AUC에서 평균 0.86→0.92(≈7%p) 상승을 보였으며, 특히 Precision@10이 0.31→0.45(≈14%p) 향상되었다. - 속성 없이 구조만 사용한 무지도 RW와 비교했을 때, 속성 통합으로 인해 “희소한” 양성 정점에 대한 탐지율이 크게 증가했다. - 파라미터 w 의 해석성을 통해, “공통 거주지”, “동일 연령대”, “최근 메시지 교환 횟수” 등이 높은 가중치를 갖는 것이 확인되었다. 이는 사회학적 가설(동질성, 강한 약한 연결)과 일치한다. - 학습 시간은 10 × 10⁶ 엣지 기준으로 3 시간 이내(멀티코어 16코어)였으며, 메모리 사용량은 30 GB 이하로 실용적인 수준이었다. **6. 논의 및 한계** - **확장성**: 현재 구현은 단일 소스 정점 s 당 학습을 수행한다. 다중 s 를 동시에 학습하도록 확장하면 파라미터 공유가 가능하지만, 아직 연구 단계이다. - **동적 네트워크**: 시간에 따라 변하는 엣지 속성을 실시간으로 반영하려면 온라인 업데이트 메커니즘이 필요하다. - **비선형 함수**: 논문에서는 주로 선형 f_w 를 사용했지만, 딥러닝 기반 f_w (예: GNN)와 결합하면 더 복잡한 관계도 포착할 수 있다. **7. 결론** 본 연구는 “엣지 속성을 직접 학습해 랜덤 워크 전이를 편향한다”는 새로운 프레임워크를 제시함으로써, 구조와 속성의 통합을 원칙적으로 해결하였다. 실험 결과는 대규모 실세계 소셜 네트워크와 학술 협업 네트워크 모두에서 기존 최첨단 방법을 능가함을 보여준다. 제안된 SRW는 링크 예측뿐 아니라 노드 라벨링, 이상 탐지, 맞춤형 추천 등 다양한 그래프 기반 응용에 확장 가능하며, 향후 동적 그래프와 딥러닝 결합 연구의 기반이 될 것으로 기대된다.

소셜 네트워크 링크 예측을 위한 지도학습 랜덤 워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기