다시 찾아오는 소셜 미디어 폭발, 왜 재발생할까

페이스북에서 1년간 수집한 이미지·동영상 공유 데이터를 분석한 결과, 인기 콘텐츠의 절반 이상이 초기 급증 이후 일정 기간 침체를 겪고 다시 급증하는 ‘재발’ 현상을 보인다. 재발은 초기 바이럴 정도가 중간 수준일 때 가장 빈번하며, 동일 콘텐츠의 복제본이 다수 존재할수록 재발 가능성이 높아진다.

저자: Justin Cheng, Lada A Adamic, Jon Kleinberg

다시 찾아오는 소셜 미디어 폭발, 왜 재발생할까
**연구 배경 및 목적** 소셜 미디어에서 사용자가 사진·동영상 등을 공유하면서 형성되는 ‘캐스케이드’는 기존 연구에서 보통 몇 일 내에 급증하고 빠르게 소멸하는 ‘버스트’ 형태로 기술되어 왔다. 그러나 실제 사용자 경험에서는 몇 주·몇 달 뒤에 동일 콘텐츠가 다시 급증하는 현상이 관찰되며, 이러한 장기적 재발 현상이 얼마나 일반적인지, 어떤 요인이 재발을 촉진하거나 억제하는지는 아직 명확히 밝혀지지 않았다. 본 논문은 이러한 공백을 메우기 위해 페이스북의 대규모 공개 콘텐츠 공유 데이터를 활용해 장기적인 캐스케이드 동태를 분석하고, 재발 현상의 메커니즘을 규명하며, 이를 예측할 수 있는 모델을 제시한다. **데이터 수집 및 전처리** 2014년 3월에 업로드된 이미지와 동영상 중 가장 많이 리쉐어된 200 000개를 초기 시드로 선정하였다. 이미지의 경우, 텍스트가 겹쳐진 meme 형태를 신경망 분류기로 추출했으며, near‑identical 이미지들을 k‑means 클러스터링으로 묶어 동일 콘텐츠의 복제본을 식별했다. 최종적으로 105 198 380개의 이미지가 76 301개의 클러스터(평균 1 379개 복제본)로, 6 748 622개의 동영상이 156 145개의 클러스터(평균 43개 복제본)로 정리되었다. 각 클러스터에 대해 2014년 전체 리쉐어 로그(5 167 835 292건 이미지, 2 187 047 135건 동영상)를 집계했으며, 2013년 10‑12월에 이미 활동이 있었던 클러스터는 제외해 2014년부터 시작된 캐스케이드만을 별도로 분석했다. **재발 정의 및 탐지** 시간을 일 단위로 이산화하고, 일별 리쉐어 수 rᵢ(i=1…t)를 기반으로 피크와 버스트를 정의했다. 피크는 (1) 높이 h₀ ≥ 10, (2) 평균 대비 최소 m = 2배, (3) ±w = 7일 내 지역 최대값, (4) 인접 피크 사이의 최소값이 두 피크 중 작은 값의 v = 0.5배 이하라는 네 가지 조건을 만족해야 한다. 피크를 중심으로 상승·하강 구간을 합친 구간을 ‘버스트’라 부르며, 피크와 버스트는 일대일 대응한다. 이 기준에 따라 이미지 meme의 59 %·전체(76 793개 중 51 415개)가 두 번 이상 피크를 보였고, 동영상은 33 %·전체(156 145개 중 149 253개)에서 재발이 관찰되었다. 피크 간 평균 간격은 이미지 202일(전체 280일), 동영상 170일(전체 182일) 정도였다. **재발 원인 분석** 1. **초기 바이럴 정도**: 첫 피크의 규모·지속시간·리쉐어어의 인구통계적 다양성이 중간 수준일 때 재발 확률이 최고에 도달한다. 초기 피크가 너무 크면 네트워크 내 잠재 수용자를 거의 모두 ‘감염’시켜 면역화가 일어나고, 이후 피크가 억제된다. 반대로 초기 피크가 작으면 충분한 관심을 끌지 못해 재발 가능성이 낮다. 2. **복제본 존재 여부**: 동일 콘텐츠의 복제본이 다수 존재하면 서로 다른 시간에 독립적인 전파가 시작될 수 있다. 복제본 자체가 재발하는 경우도 이미지 18 %, 동영상 30 %로, 복제본 수가 많을수록 전체 캐스케이드가 여러 번 부활한다. 3. **네트워크 구조와 동질성**: 재발 버스트는 초기 버스트와 비교해 더 제한된 서브그래프에 국한되는 경향이 있다. 그러나 복제본이 새롭게 도입될 때는 이전에 도달하지 못한 네트워크 영역으로 확산되며, 사용자 간 동질성(연령·지역·관심사)의 정도가 높을수록 전파 속도가 빨라진다. **모델링** 전염병 모델(SIR)을 변형해 ‘복제본 생성’ 메커니즘을 추가하였다. 각 노드는 감수성(S), 감염(I), 회복(R) 상태를 가지며, 감염된 노드가 일정 확률 p_c 로 새로운 복제본을 생성해 네트워크 내 다른 무작위 노드에 전파한다. 시뮬레이션에서는 실제 페이스북 친구 네트워크 토폴로지를 사용했으며, 바이럴 파라미터 β를 조절해 다양한 전파 강도를 재현했다. 결과는 실제 데이터와 일치했는데, β가 증가하면 단일 대형 피크 → 다중 피크(재발) → 다시 단일 피크 순으로 전이하고, 복제본 수가 많을수록 재발 빈도가 상승한다. **예측 실험** 초기 피크의 12가지 특성(규모, 지속시간, 복제본 수, 사용자 연령·성별·지역 다양성, 네트워크 중심성 등)을 입력으로 로지스틱 회귀와 Gradient Boosting 모델을 학습했다. 이미지 meme에 대해 재발 여부 예측 AUC = 0.89, 재발 피크가 원래 피크보다 큰지 여부 정확도 = 0.78, 재발 시점 예측 R² = 0.58을 기록했다. 복제본 관련 특징(복제본 수, 복제본 간 시간 간격 등)이 가장 큰 기여도를 보였으며, 개별 복제본에 대한 예측에서도 비슷한 성능(재발 여부 AUC = 0.88)으로 일반화 가능성을 확인했다. **결론 및 시사점** 본 연구는 소셜 미디어에서 콘텐츠가 단일 급증 후 사라지는 것이 아니라, 초기 바이럴 정도와 복제본 다수 존재라는 두 핵심 요인에 의해 여러 차례 ‘재발’할 수 있음을 실증했다. 재발 현상을 설명하는 간단한 전염병 기반 모델과, 초기 피크만으로도 높은 정확도로 재발을 예측할 수 있는 방법을 제시함으로써, 마케터·플랫폼 운영자·연구자에게 장기적인 콘텐츠 전략 수립과 사용자 참여 유지에 유용한 인사이트를 제공한다. 향후 연구에서는 다른 플랫폼(예: 트위터, 인스타그램)과 다양한 콘텐츠 형식(텍스트, 스토리)으로 확장하고, 복제본 생성 동기를 보다 정교히 모델링함으로써 재발 메커니즘을 더욱 깊이 이해할 수 있을 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기