연관 규칙을 위한 새로운 확률 기반 흥미도 측정법

본 논문은 연관 규칙 마이닝에서 흔히 사용되는 흥미도 측정 지표인 신뢰도(confidence)와 lift가 거래 데이터의 확률적 특성을 충분히 반영하지 못한다는 문제점을 지적한다. 이를 해결하기 위해 먼저 거래 데이터가 시간 구간 t 내에서 동질적인 포아송 과정(파라미터 θ)으로 발생하고, 각 아이템 l_i가 독립적인 베르누이 시행(p_i)으로 포함된다는 간단하면서도 직관적인 확률 프레임워크를 제시한다. 이 모델에 따르면 아이템별 등장 횟수 C_i는 포아송 분포(λ_i = p_i·θ·t)를 따르며, 아이템 쌍(l_i, l_j)의 동시 등장 횟수 C_{ij}는 고정된 주변 빈도(c_i, c_j)를 조건으로 할 때 초등분포(하이퍼지오메트리)로 기술된다. 이 프레임워크를 이용해 ‘무구조(null) 데이터’를 시뮬레이션하고, 실제 식료품점(Point‑of‑Sale) 데이터와 비교한다. 시뮬레이션 데이터는 아이템 간 독립성을 보장하므로, 실제 데이터에서 관찰되는 규칙이 우연에 의한 것인지, 혹은 실제 연관성에 기반한 것인지를 판단하는 기준이 된다. 실험에서는 2‑itemset(두 아이템 조합)에 초점을 맞추어, 신뢰도와 lift의 분포를 시각화한다. 신뢰도는 오른쪽 아이템(l_j)의 전체 빈도가 높을수록 인위적으로 상승하는 경향을 보이며, 이는 규칙의 실제 연관성보다 빈도 편향에 의해 좌우됨을 의미한다. lift는 1을 기준으로 독립성을 판단하지만, 희귀 아이템이 한 번이라도 동시에 나타날 경우 극단적인 값을 생성한다. 실제 데이터와 시뮬레이션 데이터 모두에서 lift > 2인 규칙이 다수 존재함을 확인했으며, 이는 lift가 노이즈를 충분히 억제하지 못한다는 증거이다. 이러한 한계를 극복하고자 저자는 두 가지 새로운 흥미도 측정법을 제안한다. 첫 번째는 **하이퍼‑리프트(hyper‑lift)** 로, 관측된 동시 등장 횟수 r와 기대값 E

연관 규칙을 위한 새로운 확률 기반 흥미도 측정법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기