Orkut 소셜 네트워크 사용자 프로필 조사 접근법
본 논문은 Orkut 서비스에서 사용자 프로필과 친구·커뮤니티 링크를 수집·전처리한 뒤, 프로필 필드별 가중치를 적용해 유사도 점수를 산출하고, 이를 기반으로 두 사용자 간의 친밀도·연결 강도를 추정하는 방법을 제안한다. 가중치는 이진형과 계층형 두 가지 방식으로 정의되며, 매트릭스 형태의 매칭 결과를 통해 전체 네트워크 내 관계를 정량화한다.
저자: Rajni Ranjan Singh, Deepak Singh Tomar
본 논문은 “Orkut 소셜 네트워크 사용자 프로필 조사 접근법”이라는 제목 아래, Orkut 플랫폼에서 사용자 프로필과 친구·커뮤니티 관계를 분석하여 두 사용자 간의 친밀도와 연결 강도를 정량화하는 방법을 제시한다. 논문은 총 8개의 섹션으로 구성된다.
Ⅰ. 서론에서는 인터넷이 개인에 대한 방대한 정보를 저장소 역할을 하며, 소셜 네트워크가 현실 세계의 사회적 상호작용을 반영한다는 점을 강조한다. 특히 Orkut, Bebo, MySpace 등 다양한 SNS가 법·수사 분야에서 활용되고 있음을 언급하고, 본 연구의 목표는 프로필 정보와 링크 가중치를 이용해 사용자 간 친밀도를 측정하는 것이라고 선언한다.
Ⅱ. 배경에서는 Orkut의 서비스 개요와 사용 현황(인도·브라질 중심) 및 범죄·테러리즘에 악용되는 사례를 간략히 소개한다. 이어 사용자 프로필을 ‘사회·전문·개인 정보’, ‘친구 리스트’, ‘커뮤니티’, ‘사진·스크랩북’ 등으로 구분하고, 친구·커뮤니티 관계를 그래프 형태(노드·엣지)로 모델링한다.
Ⅲ. 사용자 프로필 조사 접근법에서는 두 가지 핵심 과정을 제시한다. 첫째, “연결 식별” 단계에서는 친구 리스트, 상호 친구 수, 관심사 겹침, 전방·후방 거리 등 14개의 그래프 기반 특성을 정의한다. 둘째, “친밀도 식별” 단계에서는 (1) 통신 기반 거리(심리적 거리)와 (2) 프로필 유사도 기반 두 가지 방법을 제안한다. 프로필 유사도는 ‘내용 고유성’(희소 아이템에 대한 역로그 가중치)과 ‘내용 유사성’(공통 항목 수)로 나뉘며, 최종 점수는 이 두 요소의 합으로 산출한다.
Ⅳ. 제안된 작업에서는 전체 흐름을 도식화하고, 구체적인 구현 절차를 설명한다.
A. Orkut 네트워크 추출: API 부재와 IP 제한으로 인해 HTML 스크린 스크래핑을 이용해 사용자 페이지를 수동으로 열고, 텍스트와 하이퍼링크를 추출한다. 각 프로필은 68개의 필드를 갖지만, 유사도 계산에 필요한 20개 필드(성별·관계·언어·종교·출신·도시·직업·학력 등)만을 선택한다.
B. 전처리: 추출된 비정형 데이터를 구조화 파일로 변환하고, C 코드를 이용해 토큰 검색 기반 파싱을 수행한다. 결과적으로 ‘친구 ID’, ‘커뮤니티 ID’, ‘사회·전문·교육·관심사’ 등으로 정리된 CSV 형태가 생성된다.
C. 매칭 프로세스: 두 가지 가중치 부여 방식을 제시한다. ① 이진 가중치(0/1) 방식은 각 필드가 일치하면 1, 아니면 0을 부여하고, 전체 매칭 매트릭스에 곱한다. ② 계층형 가중치 방식은 필드의 중요도에 따라 가중치를 차등 부여한다(예: 국가=1, 주=2, 도시=3 등). 매트릭스는 ‘친구’ 행과 ‘필드’ 열로 구성되며, 각 셀은 매치 여부와 가중치 곱으로 채워진다. 최종 유사도 점수는 각 행(친구)별 가중치 합산값이다.
D. 결과 산출: 매트릭스 기반 점수를 통해 사용자를 친밀도 순으로 정렬하고, 높은 점수를 받은 친구를 ‘강한 연결’로, 낮은 점수를 받은 친구를 ‘약한 연결’으로 구분한다. 논문은 이 방법을 범죄 수사 시 의심 인물 간 관계 파악에 활용할 수 있다고 주장한다.
Ⅴ. 실험 결과 섹션에서는 실제 Orkut 사용자 1,000명에 대해 크롤링하고, 위의 매트릭스 계산을 수행했으며, 몇몇 사례에서 높은 유사도 점수가 실제 친밀 관계와 일치한다는 관찰을 제시한다. 그러나 구체적인 정량적 지표(정확도, 재현율 등)는 제시되지 않는다.
Ⅵ. 도전 과제에서는 (1) Orkut 서비스 종료와 데이터 접근 제한, (2) 수동 크롤링에 따른 시간·인력 비용, (3) 가중치 설정의 주관성, (4) 그래프 기반 메트릭과 프로필 기반 유사도의 통합 부재 등을 언급한다.
Ⅶ. 결론에서는 제안된 프로필 유사도 측정이 사용자 관계 파악에 유용함을 재확인하고, 향후 연구로는 자동화된 크롤링, 머신러닝 기반 가중치 학습, 다른 SNS 적용 등을 제시한다.
전체적으로 논문은 Orkut라는 구식 플랫폼을 대상으로 프로필 필드 매칭을 통해 친밀도를 정량화하는 아이디어를 제시하지만, 실험 설계와 검증이 부족하고, 현재 활용 가능한 SNS에 대한 적용 가능성이 낮다. 또한, 가중치 설정이 임의적이며, 그래프 구조와 속성 정보를 통합하는 현대적 방법론(예: 그래프 신경망)과 비교했을 때 설득력이 떨어진다. 향후 연구에서는 최신 SNS와 API 기반 데이터 수집, 통계적 검증, 그리고 딥러닝 기반 관계 추론 모델을 결합함으로써 실용성을 크게 향상시킬 수 있을 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기