범용 압축 사전 거리 기반 유사도 측정
본 논문은 압축 사전의 크기와 엔트로피를 이용한 일반화된 압축 사전 거리(GCDD)를 제안한다. 기존의 정규화 압축 거리(NCD)와 비교해 사전 구축만으로 유사도를 계산함으로써 압축 과정을 생략하고 계산량을 크게 줄인다. GCDD는 손실 없는 압축기에 독립적이며, 선형 시간 복잡도로 대규모 데이터와 실시간 응용에 적합하다. 실험에서는 시간 시계열 데이터 클러스터링에서 기존 거리 함수보다 우수한 군집 구분 능력을 보였으며, 특징 선택 및 지도·비…
저자: Andrey Bogomolov, Bruno Lepri, Fabio Pianesi
본 논문은 정보 이론에 기반한 새로운 유사도 측정 방법인 일반화 압축 사전 거리(Generalized Compression Dictionary Distance, GCDD)를 제안하고, 이를 기존의 정규화 압축 거리(Normalized Compression Distance, NCD)와 비교하여 이론적·실험적 우수성을 입증한다.
첫 번째 섹션에서는 유사도 측정의 중요성을 강조하며, 기존 방법들이 통계적 가정이나 파라미터 설정에 의존해 편향될 위험이 있음을 지적한다. Kolmogorov 복잡도는 이론적으로 가장 강력한 유사도 척도이지만, 비가산성으로 인해 실제 계산이 불가능하다. 이를 실용화하기 위해 Cilibrasi와 Vitanyi가 제시한 NCD가 등장했으며, 이는 실제 손실 없는 압축기 C를 이용해 문자열 x와 y를 압축한 길이 C(x), C(y), C(xy)를 활용한다. 그러나 NCD는 압축 과정 자체가 비용이 크고, 압축기마다 사전 구조가 달라 일관된 결과를 얻기 어렵다.
두 번째 섹션에서는 압축 사전 자체를 활용하는 Fast Compression Distance(FCD)를 소개한다. FCD는 사전 크기와 교집합 크기만을 이용해 유사도를 근사하지만, 사전 교집합을 코딩하는 방식에 따라 정확도가 떨어진다. 특히 사전 원소의 빈도 정보를 무시하기 때문에 정보 손실이 발생한다.
이를 보완하기 위해 저자들은 GCDD를 정의한다. GCDD는 두 문자열을 연결한 뒤 생성된 압축 사전 D(x·y)에서 다양한 통계적 특성 Φ를 추출한다. Φ는 사전 크기, 엔트로피, 패턴 빈도 분포, 최대·최소 코드 길이 등 n 차원의 실수값 함수 집합이다. GCDD는 다음과 같이 계산된다:
GCDD(x,y)= (Φ(x·y)−min{Φ(x),Φ(y)}) / max{Φ(x),Φ(y)}.
이 식은 NCD와 동일한 정규화 형태를 유지하면서, 사전의 다차원 정보를 보존한다. 결과는 n‑차원 벡터이며, 각 차원은 조건부 유사도에 대한 별도 정보를 제공한다.
복잡도 분석에서는 GCDD의 시간 복잡도가 O(k·mx·log my)임을 보인다. 여기서 mx, my는 각각 x와 y의 사전 크기이며, k는 Φ의 차원 수이다. NCD는 압축 단계에서 O((nx+ny)·log(mx+my)) 정도의 비용이 들어, GCDD에 비해 상수 요인이 크게 작용한다. 또한 GCDD는 손실 없는 압축기(예: Huffman, LZW)에 한정하면 사전 구조가 압축기마다 크게 변하지 않아 압축기 독립성을 확보한다.
세 번째 섹션에서는 실험 설계와 결과를 상세히 제시한다. 실험 데이터는 UCI 머신러닝 저장소의 “Synthetic Control Chart Time Series” 데이터셋으로, 정상(N), 주기(C), 상승 추세(IT), 하강 추세(DT), 상승 변위(US), 하강 변위(DS) 등 6가지 패턴을 포함한다. 각 패턴당 100개의 시계열을 생성해 총 600개의 샘플을 사용하였다.
비교 대상 거리 함수는 GCDD, NCD, L2‑norm(유클리드 거리), Pearson correlation이다. 각 거리 행렬을 구성한 뒤 다차원 스케일링(MDS)으로 2차원에 투영하였다. 결과는 다음과 같다:
- GCDD는 각 클래스가 명확히 구분되는 클러스터를 형성했으며, 클래스 간 경계가 뚜렷했다.
- NCD도 비슷한 경향을 보였지만, 일부 클래스가 겹치는 현상이 있었다.
- L2‑norm과 Pearson correlation은 클래스가 크게 혼합되어 구분이 어려웠다.
또한, 기존의 계산 집약적 시간 시계열 클러스터링 방법(자동상관 기반, Linear Predictive Coding, Adaptive Dissimilarity Index, ARIMA 기반 거리)과도 비교하였다. 이들 방법은 GCDD와 동일한 데이터에 대해 정확도는 비슷하거나 약간 높을 수 있으나, 실행 시간은 GCDD에 비해 10배 이상 오래 걸렸다. 이는 GCDD가 사전 구축만으로 유사도를 계산하고, 압축 단계가 없기 때문에 가능한 결과이다.
마지막 섹션에서는 GCDD의 활용 가능성을 논의한다. GCDD는 (1) 선형 시간 복잡도로 대규모 데이터에 적용 가능하고, (2) 사전 자체가 데이터의 의미적 구조를 내포하므로 콘텐츠 독립적인 특성을 가진다. 따라서 비지도 클러스터링, 지도 분류·회귀, 특징 선택, 딥러닝 모델의 전처리 단계 등 다양한 머신러닝 작업에 적용할 수 있다. 향후 연구 과제로는 이미지, 텍스트, 그래프 등 비시계열 데이터에 대한 적용, Φ 벡터를 딥러닝 네트워크의 입력 혹은 정규화 층으로 활용하는 방안, 그리고 압축기 독립성을 더욱 강화하기 위한 사전 설계 최적화가 제시된다.
요약하면, GCDD는 압축 사전의 다차원 통계 정보를 활용해 기존 NCD보다 계산 효율성과 정확도를 동시에 개선한 범용 유사도 측정 방법이며, 빅데이터와 실시간 분석 환경에서 실용적인 대안으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기