히스토그램 데이터 동적 군집화와 적응형 제곱 워서스테인 거리

본 논문은 히스토그램 형태의 복합 데이터를 대상으로 하는 군집화 방법론을 제시한다. 먼저, 히스토그램 데이터를 심볼릭 데이터 분석(SDA)의 일종으로 정의하고, 각 히스토그램을 연속 구간(빈)과 해당 구간에 대한 가중치(빈도·밀도)로 표현한다. 이러한 히스토그램은 확률분포로 해석될 수 있으며, 두 히스토그램 사이의 차이를 측정하기 위해 L2‑워서스테인 거리(또는 Mallows 거리)를 채택한다. 워서스테인 거리는 정량화 함수(quantile function)의 차를 제곱 적분한 형태이며, 중요한 특성으로 평균 차이와 중심화된 히스토그램 간 거리(분산·형태)로 정확히 분해될 수 있다. 논문은 이 분해 특성을 이용해 거리의 두 구성요소—‘위치(Mean)’와 ‘분산(Dispersion)’—에 각각 가중치 λ를 부여하는 적응형 거리 모델을 설계한다. 가중치는 양수이며, 거리 계산에 선형 변환 효과를 주어 변수·구성요소별 중요도를 조정한다. 두 가지 가중치 학습 전략을 제안한다. 첫 번째 전략은 전체 데이터 집합에 대해 각 변수·구성요소별 전역 가중치를 추정한다. 이는 데이터 전체의 변동성을 기반으로 가중치를 설정함으로써, 변동성이 큰 변수는 낮은 가중치를, 안정적인 변수는 높은 가중치를 부여한다. 두 번째 전략은 군집별 로컬 가중치를 추정한다. 각 군집 내부에서 변수·구성요소의 변동성을 별도로 측정하고, 해당 군집에 특화된 가중치를 할당한다. 이 두 전략은 서로 보완적이며, 전자는 전체적인 변수 중요도 파악에, 후자는 군집 간 차별적 구조 파악에 유리하다. 동적 군집화(DC) 알고리즘은 k‑means와 구조적으로 유사하지만, 거리 함수에 제곱 워서스테인 거리와 가중치를 결합한다는 점에서 차별화된다. 알고리즘은 다음 단계들을 반복한다. (1) 할당 단계: 현재 가중치와 현재 군집 대표(바리센터) 기반으로 각 객체를 가장 가까운 군집에 할당한다. (2) 대표 단계: 각 군집에 속한 히스토그램들의 워서스테인 평균을 계산해 새로운 바리센터를 만든다. (3) 가중치 업데이트 단계: 현재 군집 할당 결과를 이용해 각 변수·구성요소의 군집 내·외부 변동성을 추정하고, 이를 바탕으로 전역 혹은 로컬 가중치를 재계산한다. 이 과정을 수렴할 때까지 반복한다. 바리센터는 각 히스토그램의 분위수 함수를 평균한 새로운 히스토그램으로 정의되며, 이는 워서스테인 거리 하에서 최소 제곱 오차를 만족하는 대표이다. 가중치 업데이트는 관성(분산) 개념을 활용한다. 전체 관성 T는 각 객체와 전체 바리센터 사이의 제곱 워서스테인 거리 합으로 정의되고, 이는 군집 내 관성 W와 군집 간 관성 B로 분해된다. 가중치가 포함된 관성 분해는 Huygens 정리를 그대로 적용할 수 있음을 증명한다. 이를 통해 각 변수·구성요소가 전체 관성, 군집 내 관성, 군집 간 관성에 기여하는 비율을 계산하고, 군집 결과를 해석하는 정량적 도구를 제공한다. 실험 부분에서는 먼저 합성 데이터를 이용해 변수별 변동성 차이를 인위적으로 설정한다. 전역 가중치 모델은 변동성이 큰 변수에 낮은 가중치를 할당함으로써, 군집 경계가 실제 데이터 구조와 일치하도록 조정한다. 로컬 가중치 모델은 각 군집 내부에서 서로 다른 변수 중요도를 반영해, 군집 간 형태 차이를 더욱 명확히 구분한다. 두 모델 모두 기존 유클리드 거리 기반 k‑means 대비 군집 정확도(Adjusted Rand Index 등)가 향상됨을 보인다. 그 다음 실제 데이터 사례로는 이미지 색상 히스토그램, 환경 관측값 히스토그램, 금융 거래 흐름 히스토그램 등을 사용한다. 제안 방법을 적용하면, 예를 들어 색상 히스토그램에서는 밝기와 채도 변수의 가중치가 서로 다르게 조정되어, 밝기 차이가 큰 이미지와 색조 차이가 큰 이미지가 동일 군집에 묶이는 현상을 방지한다. 또한 가중치 해석을 통해 어떤 변수·구성요소가 군집 형성에 핵심적인 역할을 하는지 직관적으로 파악할 수 있다. 결론적으로, 이 논문은 히스토그램 데이터를 위한 적응형 제곱 워서스테인 거리 기반 동적 군집화 프레임워크를 제시하고, 전역·로컬 가중치 학습, 관성 기반 해석 도구, 그리고 실험을 통한 검증을 통해 복합 분포형 데이터의 구조적 특성을 효과적으로 탐지하고 해석할 수 있음을 입증한다. 향후 연구에서는 다변량 연관성을 고려한 공분산 기반 워서스테인 거리 확장, 대규모 데이터에 대한 효율적 근사 알고리즘, 그리고 비지도 학습과 지도 학습을 결합한 하이브리드 클러스터링 모델 개발이 제안된다.

히스토그램 데이터 동적 군집화와 적응형 제곱 워서스테인 거리

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기