계층적 군집화 최신 방법론과 효율적 구현

본 논문은 전통적인 병합형 계층적 군집화 알고리즘부터 Lance‑Williams 공식, 최근 선형 시간 복잡도를 갖는 그리드 기반 알고리즘까지를 포괄적으로 조사하고, R·Python 등 주요 소프트웨어에서의 구현 방식을 비교·분석한다. 또한 계층적 자기조직화 지도, 혼합 모델, 밀도 기반 그리드 군집화 등 확장 기법을 소개한다.

저자: Fionn Murtagh, Pedro Contreras

본 논문은 계층적 군집화(Hierarchical Clustering)의 전반적인 이론과 구현을 포괄적으로 정리한다. 서론에서는 계층적 군집화가 데이터 분석, 인터랙티브 UI, 저장·검색, 패턴 인식 등 다양한 분야에서 핵심 역할을 수행한다는 점을 강조하고, 기존 문헌(예: Gordon, Jain & Dubes, Mirkin 등)을 통해 연구 흐름을 조망한다. 2장에서는 군집화를 위한 사전 단계인 거리·유사도 측정과 정규화 문제를 다룬다. Minkowski 거리계열(L1, L2, L∞)과 코사인 유사도, Hellinger, Mahalanobis, Hamming 등 다양한 메트릭을 소개하고, 데이터 유형(연속형, 범주형, 혼합형)에 따라 적절한 변환(예: 정규화, 차원 축소, 대응 행렬) 방법을 제시한다. 또한 거리와 유사도의 관계, 삼각 부등식·강한 삼각 부등식(ultrametric) 개념을 설명한다. 3장에서는 병합형 계층적 군집화 알고리즘의 기본 구조를 설명한다. n개의 객체가 n−1번의 병합을 거쳐 하나의 클러스터가 되는 과정을 파티션, 덴드로그램, 부분 순서 집합(pose), 초계(metric) 등 네 가지 등가 표현으로 정리한다. 단일 연결(single link)과 완전 연결(complete link) 등 전통적인 방법의 역사적 배경과 생물학적 분류학에서의 활용 사례를 제시한다. 4장에서는 Lance‑Williams 공식에 기반한 일반화된 거리 업데이트 식을 제시하고, 이를 통해 7가지 주요 군집화 방법(단일 연결, 완전 연결, 평균 연결, McQuitty, 중앙값, 중심점, Ward)을 하나의 프레임워크로 통합한다. 각 방법에 대한 α, β, γ 파라미터와 클러스터 중심 업데이트 식을 표로 정리하고, 특히 중심 기반 방법에서 거리와 중심이 일관되게 변환되는 것을 수식적으로 증명한다. 5장에서는 저장 기반(stored‑dissimilarity) 구현의 비효율성을 지적하고, Reciprocal Nearest Neighbor(RNN) 및 Mutual Nearest Neighbor(MNN) 알고리즘을 도입한다. 이들 알고리즘은 매 단계마다 가장 가까운 두 클러스터를 O(log n) 시간에 찾고, 전체 복잡도를 O(n log n)으로 낮춘다. 또한 메모리 요구량을 O(n)으로 제한하면서도 초계 특성을 유지한다. 6장에서는 계층적 자기조직화 지도(Hierarchical SOM)와 혼합 모델 기반 군집화(Hierarchical Mixture Models)를 검토한다. SOM은 고차원 데이터를 2차원 격자에 매핑하면서 위계적 구조를 보존하고, EM 알고리즘과 결합해 확률적 군집화를 수행한다. 혼합 모델은 각 클러스터를 확률 분포로 가정하고, 병합 단계마다 모델 복잡도를 조절함으로써 데이터 적합성을 향상시킨다. 또한 분할(divisive) 방식에 대한 고찰도 포함한다. 7장에서는 그리드·밀도 기반 군집화, 특히 DBSCAN·OPTICS와 같은 밀도 기반 방법의 계층적 확장을 논의한다. 격자화와 근접 이웃 체인(chain) 구조를 이용해 데이터 공간을 사전 분할하고, 셀 간 최소 거리만을 고려해 빠른 병합을 수행한다. 8장에서는 최근 제안된 선형 시간(Linear‑time) 계층적 군집화 알고리즘을 상세히 소개한다. 이 알고리즘은 데이터 포인트를 Z‑order 혹은 해시 기반 1차원 순서로 정렬한 뒤, 인접 셀 간 최소 거리만을 이용해 병합을 진행한다. 따라서 전체 복잡도가 O(n)이며, 메모리 사용량도 O(n) 수준이다. 또한 이 방법은 그리드 기반 접근법의 장점을 유지하면서 초계 트리 구조를 그대로 제공한다. 마지막으로 결론에서는 각 방법의 장단점을 요약하고, 실무에서 선택 시 고려해야 할 요소(데이터 규모, 차원, 메모리 제한, 해석 가능성 등)를 제시한다. 또한 향후 연구 방향으로 GPU 가속, 스트리밍 데이터에 대한 온라인 계층적 군집화, 그리고 하이브리드(그리드·밀도·모델 기반) 접근법의 통합 가능성을 제언한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기