연속 패턴 마이닝을 위한 서브시퀀스 인터리빙 모델
본 논문은 시퀀스 데이터베이스를 확률적 생성 모델로 설명하고, 서브시퀀스를 임의로 섞어(인터리빙) 데이터베이스를 재구성한다. 구조적 EM 프레임워크와 서브모듈러 최적화 기반의 탐색을 통해 MDL 기반 방법과 동등하거나 더 나은 압축 효율과 낮은 중복성을 가진 패턴 집합을 자동으로 도출한다.
저자: Jaroslav Fowkes, Charles Sutton
본 논문은 시퀀스 데이터베이스에서 의미 있는 서브시퀀스 패턴을 자동으로 추출하기 위한 새로운 프레임워크인 ISM(Interesting Sequence Miner)을 제안한다. 전통적인 시퀀스 패턴 마이닝은 빈도 기반 방법이 패턴 폭발 문제를 일으키고, MDL 기반 방법은 압축을 위한 복잡한 인코딩 설계에 의존한다는 한계를 가지고 있다. 저자들은 이러한 문제를 확률적 생성 모델로 재구성한다.
먼저, 데이터베이스의 각 시퀀스 X는 사전에 정의된 흥미로운 서브시퀀스 집합 I 로부터 생성된다. 각 서브시퀀스 S∈I는 다중 발생 확률 π_S 를 갖는 Categorical 분포를 통해 몇 번 포함될지를 결정하고(z_S), 선택된 여러 복제본들은 순서를 유지하면서 서로의 아이템 사이에 삽입(인터리빙)되어 최종 시퀀스 X를 만든다. 이 과정은 실제 샘플링 없이도 가능한 인터리빙 경우의 수 |P| 를 상한으로 근사함으로써, 로그 사후 확률을 하한 형태로 표현한다.
모델 파라미터 Π와 잠재 변수 z 를 동시에 추정하기 위해 구조적 EM을 채택한다. E‑step에서는 현재 Π에 대해 각 X에 대한 최적 z 를 찾는다. 이 최적화는 “log‑posterior 하한”을 최대화하는 문제로, 목표 함수 f와 커버리지 제약 g가 각각 비단조 서브모듈러와 모노톤 서브모듈러임을 이용해 그리디 알고리즘으로 근사한다. 구체적으로, 아직 커버되지 않은 아이템을 가장 많이 추가하면서 f의 증가량 대비 아이템 수(|S|) 로 정규화된 서브시퀀스 S를 반복 선택한다. M‑step에서는 관측된 z 로부터 π_S 를 최대우도 추정한다. 이 두 단계가 교대로 수행되며, 각 반복마다 로그 사후 하한이 비감소한다.
관련 연구에서는 GSP, PrefixSpan 등 전통적인 빈도 기반 알고리즘, 그리고 GoKrimp, SQS와 같은 MDL 기반 방법을 검토한다. 기존 방법들은 압축 효율은 높지만 인코딩 설계에 크게 의존하거나, 인터리빙 패턴을 다루지 못한다는 제약이 있다. 반면, ISM은 확률 모델 자체가 인터리빙을 허용하므로 겹치는 패턴을 자연스럽게 포착한다.
실험에서는 합성 데이터와 실제 데이터(웹 클릭스트림, 의료 환자 경로, 텍스트 코퍼스 등)를 대상으로 ISM, SQS, GoKrimp을 비교한다. 평가 지표는 패턴 중복도, 스퓨리어스 패턴 비율, 인간 전문가에 의한 해석 용이성, 그리고 압축률이다. 결과는 ISM이 동일하거나 더 높은 압축률을 유지하면서도 중복도가 현저히 낮고, 스퓨리어스 패턴이 적으며, 더 다양하고 직관적인 패턴을 제공함을 보여준다. 특히, 인터리빙을 지원함으로써 독립적인 프로세스가 동시에 발생하는 데이터에서 기존 MDL 방법보다 우수한 성능을 보였다.
논문의 한계로는 |P| 를 정확히 계산하기 어려워 상한 근사에 의존한다는 점, 그리디 근사가 전역 최적을 보장하지 않으며 대규모 데이터에서 연산 비용이 증가할 수 있다는 점을 들 수 있다. 또한, 초기 서브시퀀스 집합 I 의 선택이 결과에 영향을 미칠 수 있다.
향후 연구 방향으로는 베이지안 비파라메트릭 확장(예: 디리클레 프로세스 기반 서브시퀀스 수 자동 결정), 계층적 토픽 모델과의 결합, 인터리빙 전이 확률을 명시적으로 모델링하는 확장, 그리고 대규모 데이터에 대한 효율적인 근사 알고리즘 개발이 제시된다. 이러한 확장들은 ISM이 다양한 도메인에서 보다 풍부하고 해석 가능한 시퀀스 패턴을 제공하도록 할 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기