진짜 빈발 항목집합을 찾아라

본 논문은 관측된 트랜잭션 샘플로부터 실제 확률분포에서 빈도가 θ 이상인 항목집합(진짜 빈발 항목집합, TFI)을 높은 신뢰도(1‑δ)로 식별하기 위한 새로운 임계값 ˆθ를 제시한다. VC 차원 기반의 샘플 복잡도 이론을 활용해 거짓 양성 없이 거의 모든 TFI를 복원하며, 기존 Chernoff‑union bound 방식보다 훨씬 효율적임을 실험적으로 입증한다.

저자: Matteo Riondato, Fabio V, in

본 논문은 빈발 항목집합(FI) 마이닝이 단순히 데이터셋 D에 나타나는 빈도 θ 이상인 항목집합을 찾는 것이 아니라, 데이터를 생성한 근본적인 확률분포 π에서 실제로 빈도가 θ 이상인 항목집합, 즉 진짜 빈발 항목집합(True Frequent Itemsets, TFI)을 추정하는 문제임을 강조한다. π는 알려지지 않은 일반적인 분포이며, D는 π에서 i.i.d.로 추출된 n개의 트랜잭션으로 구성된다. 각 항목집합 A에 대해 진짜 빈도 tπ(A)=Prπ

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기