대규모 데이터용 빠르고 재귀적인 케이중앙값 클러스터링 알고리즘

본 논문은 순차적으로 도착하는 대규모 고차원 데이터를 위해, k‑중앙값 손실 함수를 최소화하는 재귀적 확률경사 알고리즘을 제안한다. 수렴성을 이론적으로 증명하고, 평균화 기법과 자동 단계 크기 선택 절차를 도입해 실험에서 기존 k‑means, trimmed k‑means, PAM보다 빠르고 정확한 결과를 보였다. 마지막으로 5천 명 이상의 TV 시청 데이터를 이용해 실제 적용 사례를 제시한다.

저자: Herve Cardot, Peggy Cenac, Jean-Marie Monnez

본 논문은 대규모 고차원 데이터에 대한 빠르고 견고한 클러스터링 방법을 제시한다. 기존의 k‑means와 PAM은 계산 복잡도가 각각 O(kn)와 O(k n^2)이며, 특히 평균 기반인 k‑means는 이상치에 취약하고, PAM은 전체 데이터를 탐색해야 하는 구조적 한계로 대규모 데이터에 적용이 어려웠다. 이러한 문제점을 해결하고자 저자들은 MacQueen(1967)의 순차 k‑means 아이디어와 Robbins‑Monro 확률경사 기법을 결합해, k‑중앙값 손실(L1 손실)을 최소화하는 재귀적 확률경사 알고리즘을 설계하였다. 알고리즘은 먼저 k개의 초기 중심을 무작위로 선택하고, 각 새로운 관측치 Z_n이 들어올 때마다 해당 관측치가 가장 가까운 중심 θ_r에 할당된다(I_r 함수). 할당된 중심은 다음과 같이 업데이트된다: θ_r^{(n+1)} = θ_r^{(n)} – a_{r,n}·I_r(Z_n;θ^{(n)})·(θ_r^{(n)}–Z_n)·‖θ_r^{(n)}–Z_n‖^{-1}. 여기서 a_{r,n}은 단계 크기로, a_{r,n}=c_γ·(1+c_α n_r)^{-α} 형태이며, n_r은 현재까지 해당 클러스터에 할당된 관측 수이다. α는 ½보다 크게 설정해 수렴을 보장하고, c_γ와 c_α는 실험적으로 조정한다. 단계 크기를 자동으로 선택하기 위해, 먼저 순차 k‑means를 실행해 경험적 L1 손실을 추정하고, 이를 기반으로 c_γ를 결정한다. 이렇게 하면 사용자는 복잡한 파라미터 튜닝 없이도 적절한 학습률을 얻을 수 있다. 수학적 분석에서는 목표 함수 g(θ)=E

대규모 데이터용 빠르고 재귀적인 케이중앙값 클러스터링 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기