잠재 위치 추정으로 동질성 네트워크에서 인과적 동료 영향 추정
본 논문은 사회 네트워크에서 관측되지 않은 동질성(잠재 동질성) 때문에 발생하는 인과 추정의 혼란을, 네트워크 자체가 제공하는 잠재 위치 정보를 이용해 해결한다. 정규화된 확률 블록 모델과 연속 잠재 공간 모델 두 가지 경우에 대해, 전역적인 연결 구조로부터 잠재 속성을 일관적으로 추정할 수 있음을 보이고, 이 추정값을 회귀 분석에 포함하면 사회적 영향 계수 β를 편향 없이 일관적으로 추정할 수 있음을 증명한다. 특히 블록 모델에서는 오류가 지…
저자: Edward McFowl, III, Cosma Rohilla Shalizi
이 논문은 사회적 영향(social influence)을 관측 데이터만으로 식별하는 것이 일반적으로 불가능하다는 기존의 인과 추정 이론을 확장한다. 핵심 어려움은 동질성(homophily) – 즉, 유사한 특성을 가진 사람들끼리 네트워크를 형성한다는 현상 – 이 잠재 특성 Cᵢ가 네트워크 연결 Aᵢⱼ와 행동 Yᵢ,ₜ 모두에 영향을 미쳐, 인과 효과 β와 혼동된다는 점이다. 저자들은 두 가지 전형적인 네트워크 생성 모델, 즉 확률적 블록 모델과 연속 잠재 공간 모델을 전제로, 전역적인 연결 구조만을 이용해 잠재 특성 Cᵢ를 일관적으로 추정할 수 있음을 보인다.
먼저, 블록 모델에서는 각 노드가 k개의 커뮤니티 중 하나에 속하고, 커뮤니티 간·내 연결 확률이 행렬 w에 의해 정의된다. 기존 연구(Bickel & Chen 2009, Zhao et al. 2012, Zhang & Zhou 2016, Gao et al. 2017)는 이러한 모델에서 커뮤니티 할당을 다항식 시간 알고리즘으로 정확히 복원할 수 있으며, 최소극대 수렴률이 n에 대해 지수적으로 빠른 것을 증명했다. 따라서 추정된 커뮤니티 라벨 ˆσ(i) 혹은 변환된 잠재 위치 ˆCᵢ와 실제 Cᵢ 사이의 차이는 확률적으로 0에 수렴한다. 이때 회귀식 (2)에 ˆCᵢ를 포함하면, 측정오차에 의한 편향이 지수적으로 사라져 β̂는 무편향·일관적이다.
두 번째로, 연속 잠재 공간 모델에서는 각 노드가 d 차원 유클리드 공간에 위치하고, 연결 확률은 거리 함수 w(‖Cᵢ−Cⱼ‖)로 표현된다. 이 경우 스펙트럴 임베딩, 그래프 마틴게일, 혹은 베이즈 추정법을 통해 Cᵢ를 n^{−α} (α>0) 속도로 일관적으로 추정할 수 있다(예: Hoff et al. 2002, Asta et al. 2020). 추정오차가 충분히 작아지면, 회귀식 (2)에서 ηᵢ,ₜ₊₁와 Yⱼ,ₜ 사이의 공분산이 Oₚ(n^{−α}) 수준으로 감소하고, 이는 β̂의 편향을 동일한 속도로 감소시킨다. 따라서 n이 충분히 클 경우 β̂는 점근적으로 무편향이 된다.
논문은 이러한 이론적 결과를 뒷받침하기 위해 시뮬레이션을 수행한다. 블록 모델에서는 커뮤니티 수가 증가하고 네트워크가 커질수록 β̂의 평균 제곱오차가 급격히 감소함을 확인했으며, 연속 모델에서도 차원과 거리 함수 형태에 따라 수렴 속도가 다르지만 전반적으로 n이 커짐에 따라 편향이 사라지는 현상을 관찰했다.
핵심 가정은 (i) 네트워크가 동질성에 의해 형성된다는 점, (ii) 잠재 특성 Cᵢ가 네트워크 연결 확률 w에 완전하게 반영된다는 점, (iii) 관측되지 않은 외생 변수 Xᵢ가 ˆCᵢ를 알면 Yⱼ,ₜ와 독립이라는 조건이다. 특히 (iii)는 Xᵢ가 순수히 네트워크와 무관한 경우에만 성립하므로, 실제 연구에서는 변수 선택과 도메인 지식이 필수적이다.
결론적으로, 저자들은 “동질성 때문에 인과 추정이 불가능하다”는 일반적 믿음에 반하여, 네트워크 자체가 제공하는 잠재 위치 정보를 활용하면 비실험적 데이터에서도 사회적 영향 β를 일관적으로 추정할 수 있음을 증명한다. 이는 대규모 온라인 소셜 플랫폼, 교육 네트워크, 공공 보건 네트워크 등에서 정책 효과를 평가하거나 마케팅 전략을 설계할 때, 실험적 개입 없이도 신뢰할 수 있는 인과 추정을 가능하게 하는 중요한 이론적·실용적 기여이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기