심장질환 예측을 위한 연관분류와 유전 알고리즘
연관 규칙 기반 분류와 유전 알고리즘을 결합해 심장질환을 예측하는 모델을 제안한다. Gini 지수를 이용해 핵심 속성을 선택하고, Z‑통계량으로 규칙을 검증·정제한 뒤 GA로 최적 규칙 집합을 진화시킨다. 10‑fold 교차 검증 결과, 다수의 의료·비의료 데이터셋에서 기존 방법보다 높은 정확도를 달성하였다.
저자: M. Akhil Jabbar, B L Deekshatulu, Priti Ch
본 연구는 심장질환 예측을 위한 의사결정 지원 시스템을 구축하고자, 연관분류와 유전 알고리즘을 결합한 새로운 학습 프레임워크를 제안한다. 연관분류는 전통적인 연관규칙 채굴(APRIORI)과 분류를 통합한 기법으로, 규칙의 신뢰도와 지원도를 동시에 고려해 높은 정확도의 분류기를 만들 수 있다. 그러나 기존 연관분류는 규칙 탐색 과정에서 발생하는 방대한 후보 규칙과 낮은 효율성 문제가 있다. 이를 해결하기 위해 저자는 다음과 같은 단계적 절차를 설계하였다.
1. **속성 선택 – Gini Index 활용**
훈련 데이터셋의 각 특성에 대해 Gini Index를 계산하고, 가장 낮은 값을 가진 속성을 ‘핵심 속성’으로 선정한다. Gini Index는 클래스 불순도를 측정하는 지표로, 값이 낮을수록 해당 속성이 클래스 구분에 유리함을 의미한다. 핵심 속성을 중심으로 규칙을 생성함으로써 후보 규칙 수를 크게 감소시킨다.
2. **규칙 생성 및 초기 집합 구성**
선택된 속성을 이용해 클래스 연관규칙을 생성하고, 이를 각각 하나의 염색체(chromosome) 형태로 인코딩한다. 규칙은 ‘조건 → 클래스’ 형태이며, 조건 부분은 판단 노드(judgment node)로 표현된다.
3. **통계적 검증 – Z‑Statistic 기반 가지치기**
각 규칙에 대해 지원도(Support)와 최소 지원도(min‑sup)를 이용해 Z‑Statistic을 계산한다. Z‑Statistic = (S(X) – min‑sup) / √
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기