빠른 빈발항목집합 탐색을 위한 PBR 비트벡터 투영 기법

본 논문은 기존 비트벡터 기반 빈발항목집합 마이닝이 희소 데이터에서 비효율적인 문제를 해결하기 위해 Projected‑Bit‑Regions(PBR)라는 새로운 투영 기법을 제안한다. PBR을 기반으로 한 Ramp 알고리즘은 전체, 최대, 폐쇄 빈발항목집합을 모두 효율적으로 탐색하며, FastLMFI를 통해 최대 빈발항목집합의 포함 관계 검사를 빠르게 수행한다. 실험 결과, Ramp는 기존 최첨단 알고리즘(FP‑growth, AFOPT, MAFI…

저자: Shariq Bashir, Abdul Rauf Baig

본 논문은 빈발항목집합 마이닝(FIM) 분야에서 비트벡터 기반 접근법이 밀집 데이터에서는 뛰어난 성능을 보이지만, 희소 데이터에서는 비트‑AND 연산에 포함된 다수의 0‑비트 때문에 비효율적이라는 문제점을 제기한다. 기존의 대표적인 비트벡터 기반 알고리즘인 MAFIA는 projected bitmap이라는 투영 기법을 사용했지만, 투영 과정에서 높은 연산 비용과 메모리 사용량이 발생해 모든 탐색 노드에 적용하기 어려웠다. 이를 극복하기 위해 저자들은 Projected‑Bit‑Regions(PBR)라는 새로운 투영 기법을 고안하였다. PBR은 비트벡터를 32비트 워드(또는 CPU 워드 크기) 단위로 나누어, 현재 탐색 노드의 헤드 비트벡터에서 0‑워드(즉, 해당 트랜잭션이 현재 후보 항목집합에 전혀 포함되지 않은 영역)를 빠르게 식별하고, 이 워드들을 별도의 리스트에 저장한다. 이후 자식 노드로 확장할 때는 이 0‑워드들을 완전히 제외하고 비트‑AND 연산을 수행함으로써, 희소 데이터에서도 불필요한 연산을 최소화한다. PBR은 복사 비용이 거의 없으며, 모든 탐색 단계에서 동일한 로직을 적용할 수 있어 adaptive compression이 필요 없다는 장점이 있다. 이러한 PBR을 기반으로 설계된 새로운 마이닝 알고리즘이 Ramp(R eal A lgorithm for M ining P atterns)이다. Ramp는 전체 빈발항목집합(FI), 최대 빈발항목집합(MFI), 폐쇄 빈발항목집합(FCI)을 모두 효율적으로 탐색하도록 설계되었다. 탐색은 전통적인 깊이 우선 탐색(DFS) 방식을 따르며, 각 노드에서 동적 재정렬(dynamic reordering)을 통해 지원도가 낮은 항목을 뒤쪽으로 이동시켜 탐색 공간을 축소한다. 또한 Parent Equivalence Pruning(PEP)과 FHUT, HUTMFI와 같은 기존의 가지치기 기법을 그대로 활용하면서, PBR이 제공하는 비트‑region 정보를 이용해 가지치기 비용을 더욱 감소시킨다. 특히 최대 빈발항목집합의 포함 관계 검증을 담당하는 FastLMFI 모듈은 기존의 progressive focusing 방식보다 효율적인 로컬 최대 빈발항목집합 전파와 superset 검사를 제공한다. FastLMFI는 현재 노드의 헤드 비트벡터와 이미 발견된 MFI 집합을 비교할 때, PBR이 만든 비트‑region 리스트를 활용해 빠르게 포함 관계를 판단한다. 이 과정은 비트‑AND 연산을 최소화하고, 메모리 접근 패턴을 최적화함으로써 검증 단계의 병목을 크게 완화한다. 실험에서는 FIMI‑03, FIMI‑04와 같은 공개 벤치마크 데이터셋을 포함한 다양한 밀집·희소 데이터에 대해 Ramp, FP‑growth(zhu), AFOPT, MAFIA와 성능을 비교하였다. 실험 결과, Ramp는 특히 낮은 최소 지원(min‑sup)값에서 기존 최첨단 알고리즘보다 1.5배에서 3배 정도 빠른 성능을 보였으며, 메모리 사용량도 경쟁 알고리즘보다 효율적이었다. 특히 희소 데이터셋에서 MAFIA가 투영 비용 때문에 성능이 급격히 저하되는 반면, Ramp는 PBR 덕분에 일정 수준 이상의 성능을 유지하였다. 또한 최대 빈발항목집합 검증 단계에서 FastLMFI를 적용했을 때, 기존 progressive focusing 대비 평균 30% 이상의 속도 향상을 기록하였다. 결론적으로, 본 논문은 비트벡터 기반 마이닝의 핵심 병목인 희소성 문제를 구조적으로 해결하는 PBR 기법을 제안하고, 이를 기반으로 전체·최대·폐쇄 빈발항목집합을 동시에 효율적으로 탐색할 수 있는 Ramp 알고리즘을 구현하였다. 또한 FastLMFI를 통해 최대 빈발항목집합 검증을 가볍게 만들어, 전체 시스템의 성능을 한층 끌어올렸다. 이러한 기여는 비트벡터 기반 마이닝이 데이터 유형에 구애받지 않고 일관된 고성능을 제공할 수 있음을 입증하며, 향후 대규모 데이터 분석 및 실시간 연관 규칙 탐색 등에 적용 가능성을 크게 확장한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기