소셜 벡터 클록을 이용한 링크 예측
본 논문은 이벤트 기반의 소셜 네트워크에서 시간 순서와 간격 정보를 활용한 ‘소셜 벡터 클록(Social Vector Clock)’이라는 경량 피처를 제안한다. 전통적인 패널 데이터 기반 링크 예측이 놓치기 쉬운 직접·간접 상호작용의 최신성(latency)을 정량화함으로써, 기존 복합 피처와 결합했을 때 현재까지 가장 높은 정밀‑재현율(AUPR)을 달성한다는 실험 결과를 제시한다.
저자: Conrad Lee, Bobo Nick, Ulrik Br
본 논문은 소셜 네트워크에서 미래의 연결(링크)을 예측하는 문제를 다루면서, 기존에 널리 사용되던 패널 데이터(시간 구간별 정적 스냅샷) 방식이 갖는 시간 정보 손실 문제를 지적한다. 특히, 이메일, 전화, 트위터와 같이 정확한 타임스탬프가 기록된 이벤트 스트림에서는 상호작용의 순서와 간격이 중요한 예측 신호가 될 수 있다. 저자들은 이러한 미세 시간 정보를 효율적으로 활용하기 위해 ‘소셜 벡터 클록(Social Vector Clock, SVC)’이라는 새로운 피처 집합을 제안한다.
SVC는 전통적인 분산 시스템의 벡터 클록 개념을 차용한다. 각 노드는 다른 모든 노드에 대해 “가장 최신에 받을 수 있었던 정보의 시각”을 저장한다. 이벤트 (t, s, r)가 발생하면, s와 r 사이에 직접 정보 교환이 일어나며, 양쪽 모두 자신의 벡터를 상대방의 벡터와 비교해 최신 시각을 취한다. 이때, 단방향 커뮤니케이션(예: 이메일)에서는 수신자 r만 업데이트하고, 양방향(예: 전화)에서는 양쪽이 동시에 업데이트한다. 이렇게 하면 네트워크 전체에 걸쳐 정보 흐름의 인과 관계를 실시간으로 추적할 수 있다.
전통적인 벡터 클록은 O(N²) 공간과 O(N) 연산 복잡도로 대규모 소셜 네트워크에 적용하기 어렵다. 논문에서는 두 가지 주요 최적화를 도입한다. 첫째, 사회적 네트워크는 작은 세계 특성을 가지므로, 실제로 의미 있는 정보 교환은 제한된 반경(k hops) 내에서만 발생한다는 가정 하에, 각 노드가 유지하는 뷰를 k 이내의 이웃에 대해서만 제한한다. 둘째, 업데이트 연산을 이벤트 유형에 따라 차등 적용해 불필요한 연산을 줄인다. 결과적으로 공간 복잡도는 O(N·k), 시간 복잡도는 이벤트당 O(k)로 크게 개선된다.
SVC에서 파생된 핵심 피처는 다음과 같다.
1. **Latency** – 현재 시점에서 송신자 s가 수신자 r에 대해 가지고 있는 최신 정보 시각과 실제 최신 시각 사이의 차이. 값이 작을수록 s가 r에 대한 최신 정보를 보유하고 있음을 의미한다.
2. **Indirect Update Count** – 두 노드 사이에 간접적으로 발생한 정보 전달 횟수. 예를 들어 A→C→B와 같은 경로를 통해 B가 A의 최신 정보를 받았다면, 이는 간접 업데이트로 카운트된다.
3. **Recency Gradient** – 특정 기간 내에 발생한 상호작용이 전체 상호작용 대비 차지하는 비율로, 최근성에 대한 가중치를 제공한다.
이러한 피처들은 기존의 구조적 지표(공통 이웃, Adamic‑Adar, Preferential Attachment 등)와 결합해 로지스틱 회귀, 랜덤 포레스트, Gradient Boosting Machine 등 표준 이진 분류기에 입력된다. 논문은 ‘감독형(link prediction) 학습 프레임워크’를 채택한다. 데이터는
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기