디리클레 과정으로 확장 가능한 고객 유사성 추정 모델
본 논문은 동질성(동질성) 이론에 기반해 고객 간 상호작용 데이터를 활용, 라티스 공간 모델에 디리클레 프로세스(DP) 사전분포를 도입해 잠재적 유사성을 추정한다. DP를 이용해 라티스 좌표를 군집화함으로써 N²개의 dyad를 k²( k≪N) 로 축소, 계산량을 크게 낮추어 대규모 네트워크에서도 실용적인 베이지안 추론이 가능하도록 한다. 통신 데이터 실증을 통해 모델 적합도와 예측력을 검증하고, 마케팅 세분화·타깃팅에 활용할 수 있음을 제시한다…
저자: Michael Braun, Andre Bonfrer
본 논문은 마케팅 분야에서 고객 간 상호작용 데이터를 활용해 잠재적인 ‘유사성’을 추정하고, 이를 세분화·타깃팅에 적용하는 새로운 확률적 프레임워크를 제시한다. 서론에서는 동질성(homophily) 이론을 근거로, 유사한 고객은 서로 더 많이 교류한다는 가정을 설명하고, 기존 연구가 상호작용 데이터를 활용했지만 규모가 커질수록 N² 개의 dyad를 모두 모델링해야 하는 계산적 한계에 봉착했음을 지적한다. 이를 극복하기 위해 라티스 공간 모델에 베이지안 비모수 방법인 디리클레 프로세스(DP)를 도입한다.
모델 구성은 크게 세 부분으로 나뉜다. 첫째, 각 고객 i 는 D 차원 라티스 공간상의 좌표 zᵢ (잠재 변수)를 갖는다. 둘째, dyad (i,j) 의 상호작용 강도 θ_{ij} 는 zᵢ, zⱼ 간 거리 d_{ij}=‖zᵢ−zⱼ‖ 에 의해 결정되는 파라미터 φ_{ij}=h(d_{ij}) (단조 감소 함수)와 연결된다. 셋째, θ_{ij} 는 g(θ_{ij}|φ_{ij}) 를 통해 관측값 y_{ij} (예: 통화 횟수, 관계 존재 여부 등)의 likelihood f(y_{ij}|θ_{ij}) 에 매핑된다.
DP 사전 G∼DP(α,G₀) 를 zᵢ 의 분포에 적용하면, G 는 거의 확정적인 이산 분포가 되며, 고객들은 k 개의 질점 μ₁,…,μ_k 에 할당된다. 따라서 실제로는 k 개의 고유 좌표만 존재하고, dyad 간 거리 종류는 k²+1 (동일 좌표 간 거리 0 포함)으로 제한된다. 이로써 매 MCMC 반복마다 계산해야 할 φ_{ij} 와 f(y_{ij}|θ_{ij}) 의 수가 O(N²)에서 O(k²)로 크게 감소한다.
추정 알고리즘은 Gibbs 샘플링을 기반으로, (1) 각 고객의 군집 할당 cᵢ 를 샘플링하고, (2) 군집 질점 μ_c 를 업데이트하며, (3) α와 기타 하이퍼파라미터를 메트로폴리스-헤이스팅스 단계에서 추정한다. DP의 ‘스티키’ 특성 덕분에 군집 수 k 는 사전에 지정할 필요 없이 데이터에 의해 자동으로 결정된다.
실증 분석에서는 중국 모바일 통신사의 콜 기록 데이터를 사용했다. 데이터는 4,781명의 고객과 약 1억 1천만 dyad를 포함한다. DP 모델은 약 k≈30 개의 군집으로 수렴했으며, 각 군집은 유사한 통화 패턴과 사회적 연결성을 가진 고객 집단을 나타냈다. 모델 적합도는 기존 연속 라티스 모델 및 단순 로그선형 모델 대비 AIC, BIC, ROC‑AUC 등에서 유의하게 우수했다. 특히, 관측되지 않은 ‘제로 dyad’(통화가 전혀 없던 쌍) 중에서도 향후 6개월 내 실제 통화가 발생할 확률을 정확히 예측함으로써, 잠재 유사성이 비관측 정보까지 활용할 수 있음을 보여준다.
경영적 시사점으로는, 추정된 라티스 좌표를 2차원 시각화해 고객 군집을 직관적으로 파악하고, 이를 기존 인구통계·행동 기반 세분화와 결합해 맞춤형 마케팅 캠페인을 설계할 수 있다. 예를 들어, 동일 군집 내 고객에게는 입소문 마케팅을, 군집 간 연결이 강한 고객에게는 교차 판매 전략을 적용하는 것이 효과적일 수 있다. 또한, DP 기반 모델은 자동 군집 수 결정과 계산 효율성 덕분에, 마케터가 대규모 네트워크 데이터를 실시간에 가깝게 분석하고 의사결정에 활용할 수 있는 기반을 제공한다.
논문의 한계로는 라티스 차원 D 와 사전 파라미터 α 의 선택이 결과에 영향을 미칠 수 있다는 점, 그리고 정적 라티스 모델이 시간에 따라 변하는 동적 네트워크를 충분히 포착하지 못한다는 점을 들었다. 향후 연구에서는 시간 가변 DP(예: 스티키 HDP)나 베이지안 동적 라티스 모델을 도입해 시계열 상호작용 변화를 모델링하고, 추정된 유사성을 실제 구매 행동·수익성과 직접 연결하는 실증을 확대할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기