데이터 충돌로 찾는 보편적 유사성 측정법

본 논문은 다양한 과학·공학 분야에서 관측되는 연속형 데이터 스트림을 사전 정의된 특징이나 라벨 없이도, 그 근본적인 생성 과정을 비교·분류할 수 있는 보편적 방법론인 ‘데이터 스매싱(Data Smashing)’을 제안한다. 핵심 아이디어는 데이터 스트림을 유한 기호 알파벳으로 양자화하고, 각 스트림에 대응하는 확률적 유한 상태 자동기(PFSA)라는 숨은 생성 모델을 가정한다는 점에 있다. PFSA 공간은 가환군(Abelian group) 구조를 가지며, 각 모델 G에 대해 유일한 역원  G가 존재한다. G와  G를 합하면 ‘평탄 백색 잡음(FWN)’을 생성하는 영원 모델 W가 된다. 데이터 스매싱은 실제 관측된 기호열 s에 대해 직접적인 모델 복원을 수행하지 않고, 알고리즘적으로 s의 안티‑스트림  s를 생성한다. 안티‑스트림은 원 스트림에서 자주 나타나는 심볼 서열을 드물게, 드물게 나타나는 서열을 자주 나타나게 하는 통계적 반전이다. 그런 다음 원 스트림 t와  s를 합성하고, 결과 스트림이 FWN에 얼마나 가까운지를 측정한다. 이 거리는 ‘편차 ^ ☐(·)’ 함수로 정량화되며, 편차가 작을수록 두 스트림이 동일한 PFSA를 공유한다는 의미이다. 논문은 네 가지 기본 연산을 정의한다. ① Independent Stream Copy은 FWN으로부터 무작위 심볼을 읽어 원 스트림과 일치할 때만 출력해 독립 복사본을 만든다. ② Stream Inversion은 다중 복사본을 동시에 읽어 모든 복사본에서 동일한 심볼이 나타날 때만 출력함으로써 통계적 반전을 구현한다. ③ Stream Summation은 두 스트림의 현재 심볼이 일치할 경우에만 출력한다. ④ Deviation from FWN은 모든 길이 ℓ≤L 에 대해 관측된 조건부 분포와 균등 분포의 차이를 가중합해 ^ ☐ 값을 산출한다. 여기서 L 은 입력 길이에 대한 로그 스케일 함수이며, 충분한 데이터가 확보되면 ^ ☐ 값은 0에 수렴한다. 이론적 분석에서는 PFSA가 유한 상태, 정상성, 에르고딕성을 만족하면 위 연산이 정확히 정의되고, 두 스트림 사이의 거리 d(G,H)=^ ☐(G+ H) 는 메트릭 성질(비음성, 대칭, 삼각 부등식)을 만족함을 증명한다. 따라서 관측된 기호열만으로도 숨은 모델 간 거리를 추정할 수 있다. 실험 부분에서는 세 가지 대표적인 응용 사례를 제시한다. 첫째, 뇌전증 환자의 EEG 데이터를 3‑알파벳으로 양자화해 데이터 스매싱 기반 클러스터링을 수행했으며, 기존 전문가 기반 알고리즘과 비교해 98.9%의 정확도를 달성했다. 둘째, 심장 리듬 데이터에서 비정상 리듬을 자동 탐지했으며, 특징 설계 없이도 높은 민감도와 특이도를 보였다. 셋째, 천문학적 광도곡선을 원시 포토메트리 데이터만으로 분류했으며, 전통적인 주기 분석이나 형태 기반 분류보다 우수한 성능을 기록했다. 모든 사례에서 데이터 스매싱은 사전 지식이나 라벨이 전혀 없는 상황에서도 경쟁력 있는 결과를 제공한다는 점을 강조한다. 제한점으로는 (1) 완전히 결정론적인 시스템(예: 순수 주기 신호)에서는 PFSA 모델이 의미를 갖지 않아 적용이 어려우며, (2) 스트림 간 독립성이 크게 위배될 경우(공통 외부 요인에 의해 강하게 상관된 경우) 거리 추정이 왜곡될 수 있다. 또한 알파벳 크기가 커질수록 연산 복잡도가 알파벳 제곱에 비례해 증가하므로, 실시간 고속 스트림 처리에는 적절한 양자화와 샘플링 전략이 필요하다. 결론적으로, 데이터 스매싱은 “통계적 반대”라는 새로운 개념을 도입해, 특징 추출이나 지도 학습 없이도 데이터 스트림 간의 근본적인 생성 메커니즘을 비교·클러스터링할 수 있는 보편적 프레임워크를 제공한다. 이는 다양한 분야에서 데이터 기반 탐색·분류·이상 탐지를 수행하는 데 있어, 도메인 전문가의 개입을 최소화하고 자동화된 분석 파이프라인을 구축하는 데 큰 잠재력을 가진다.

데이터 충돌로 찾는 보편적 유사성 측정법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기