AIM Kmeans와 Kmeans 성능 비교와 품질 향상

본 논문은 데이터 마이닝 분야에서 가장 널리 쓰이는 비계층적 군집화 기법인 K‑means의 핵심 약점인 초기 평균값(centroid) 선택 문제를 해결하고자 Automatic Initialization of Means(AIM) 알고리즘을 제안한다. 먼저 서론에서는 군집화가 비지도 학습의 기본적인 방법이며, K‑means가 계산 복잡도 O(n·k·l) 로 대규모 데이터에도 적용 가능하지만, 초기 중심점이 무작위로 선택될 경우 로컬 최소에 빠져 군집 품질이 크게 달라진다는 점을 강조한다. 기존 연구에서는 K‑means++ 등 여러 개선 방법이 제시되었지만, 대부분 사용자가 군집 수 k를 사전에 지정해야 하는 제약이 남아 있다. 다음 섹션에서는 K‑means 알고리즘을 간략히 복습한다. 데이터 집합 D={x₁,…,xₙ}에 대해 사용자가 지정한 k개의 중심 m₁,…,m_k를 초기값으로 잡고, (a) 각 데이터 포인트를 가장 가까운 중심에 할당, (b) 각 클러스터의 평균을 새로운 중심으로 업데이트하는 과정을 수렴할 때까지 반복한다. 목표 함수는 평균 제곱오차(SSE)인 ∑ᵢ d(xᵢ,m_{c(i)})² 를 최소화하는 것이다. 초기 중심이 다르면 수렴 결과가 달라지며, 최적이 아닌 로컬 최소에 머물 위험이 있다. AIM 알고리즘은 이러한 초기값 선택을 자동화한다. 기본 아이디어는 전체 데이터의 평균 μ와 표준편차 σ를 계산하고, 거리 임계값을 μ ± σ 로 설정한다. 알고리즘 흐름은 다음과 같다. 1) 원본 데이터 D를 복사해 임시 집합 T를 만든다. 2) T에서 임의의 한 점을 첫 평균 m₁으로 선택하고 T에서 제거한다. 3) 남은 n‑k 번에 걸쳐, 현재 후보 점 xᵢ를 임시 평균 mc 로 잡고, 기존 평균 집합 M={m₁,…,m_j}와의 평균 거리 L/k 를 계산한다. 4) 이 평균 거리가 사전에 정의된 거리 임계값(μ ± σ) 이상이면 xᵢ를 새로운 평균으로 채택하고 T에서 삭제한다. 5) 위 과정을 반복해 최종 평균 집합 M을 얻는다. 이렇게 자동으로 결정된 M은 K‑means의 입력으로 사용된다. AIM‑Kmeans와 기존 K‑means의 성능 비교를 위해 세 개의 공개 데이터셋을 선택했으며, 각각 크기와 차원이 서로 다르다. 실험은 C 언어로 구현된 별도 프로그램을 이용해 (1) K‑means에 사용자 지정 k값을 입력, (2) AIM‑Kmeans에 자동으로 k와 초기 평균을 제공, (3) 자동으로 얻은 k값을 다시 K‑means에 적용하는 순서로 진행했다. 평가 지표는 평균 SSE이며, 결과는 Figure 1에 평균 SSE 비교 그래프로 제시되었다. 실험 결과, AIM‑Kmeans가 동일 데이터에 대해 평균 SSE가 가장 낮았으며, K‑means에 AIM이 제공한 k값을 사용했을 때도 SSE가 감소하는 경향을 보였다. 이는 초기 평균이 좋은 로컬 최소점으로 빠르게 수렴함을 의미한다. 결론에서는 K‑means의 장점인 단순성과 확장성을 유지하면서, AIM을 통해 초기 평균 자동 선택과 군집 수 자동 추정이라는 두 가지 중요한 문제를 동시에 해결했다고 주장한다. 또한, 실험을 통해 AIM‑Kmeans가 대부분의 경우 클러스터 품질을 저하시키지 않으며, 오히려 향상시킨다는 점을 강조한다. 다만, 논문은 이상치에 대한 민감성, 비정규분포 데이터에 대한 적용 가능성, 그리고 k값 자동 추정의 정확도에 대한 정량적 분석이 부족하다는 한계를 인정한다. 향후 연구에서는 다양한 거리 측정법, 밀도 기반 임계값, 그리고 파라미터 자동 튜닝을 결합해 AIM의 일반화 능력을 강화할 필요가 있다.

AIM Kmeans와 Kmeans 성능 비교와 품질 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기