희귀 사건 예측을 위한 비용 기반 임계값 설정: 로지스틱 회귀와 대안 모델 비교

본 논문은 희귀하지만 심각한 사건, 특히 살인 재범과 같은 범죄를 예측할 때 오류 비용을 고려한 임계값 설정 방법을 제시한다. 기존 연구인 Berk 등(2009)은 “통계학적 학습(Random Forest) 기반 SLRF” 모델을 개발했지만, 로지스틱 회귀가 희귀 사건을 식별하는 데 한계가 있다고 비판한다. 저자는 모든 확률 예측 모델에 대해 적용 가능한 일반적인 프레임워크를 제시한다. 먼저, 오류 비용 비율 r = (거짓 음성 비용)/(거짓 양성 비용) 을 정의하고, 최적 임계값 p* = 1/(1+r) 을 계산한다. 예시에서는 살인 재범을 10:1의 비용 비율로 설정했으며, 이에 따라 p* = 0.0909 (9.09%)가 된다. 즉, 사후 확률이 9.09% 이상인 대상자를 고위험으로 분류한다. 로지스틱 회귀는 각 대상에 대해 로그오즈와 사후 확률을 제공하므로, 이 임계값을 바로 적용할 수 있다. 데이터는 훈련표본 30,000명 중 사건 발생이 322건(1.1%)으로 매우 희귀했다. 50% 기준으로는 LR+ ≥ 46.6이 필요하지만, SLRF는 LR+ = 7.16에 머물러 사후 확률이 12%에 불과했다. 비용 기반 평가에서는 SLRF의 총 비용이 2,193 + 10 × 198 = 4,173 (거짓 양성 비용 단위)으로, 로지스틱 회귀(총 비용 = 3,211)보다 높았다. 더 나아가, 모든 대상을 음성으로 처리하는 전략(총 비용 = 3,480)보다도 SLRF가 비효율적임을 보여준다. 비용 비율을 15:1로 높이면 SLRF는 “모두 음성” 전략과 동등해지고, 100:1로 높이면 38% 비용 절감 효과가 나타난다. 이는 정책 입안자가 비용 비율을 어떻게 설정하느냐에 따라 모델 선택이 달라질 수 있음을 시사한다. 또한 저자는 로지스틱 회귀 모델을 최적화하기 위한 변수 선택 방안을 제시한다. 연속형·순서형 변수를 “traffic‑light” 더미화하고, AIC 기반 단계적 회귀(stepwise, p < 0.1) 혹은 Stata의 ‑swaic‑ 명령을 활용해 최적 모델을 찾을 것을 권고한다. 이렇게 하면 변수의 해석 가능성도 확보되고, 정책 변화에 따라 비용 비율을 손쉽게 재조정할 수 있다. 결론적으로, 오류 비용을 명시적으로 반영한 확률 임계값은 로지스틱 회귀와 같은 전통적 모델을 희귀 사건 예측에 효과적으로 활용하게 하며, 비용 기반 평가를 통해 SLRF와 같은 복잡한 머신러닝 모델의 실제 가치를 객관적으로 판단할 수 있다.

희귀 사건 예측을 위한 비용 기반 임계값 설정: 로지스틱 회귀와 대안 모델 비교

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기