폐암 사망률 예측을 위한 기계학습 모델의 성능 분석
📝 원문 정보
- Title: Comparative Evaluation of Explainable Machine Learning Versus Linear Regression for Predicting County-Level Lung Cancer Mortality Rate in the United States
- ArXiv ID: 2512.17934
- 발행일: 2025-12-10
- 저자: Soheil Hashtarkhani, Brianna M. White, Benyamin Hoseini, David L. Schwartz, Arash Shaban-Nejad
📝 초록 (Abstract)
폐암(LC)은 미국에서 암 관련 사망의 주요 원인 중 하나이다. LC 사망률을 정확하게 예측하는 것은 대상 개입을 안내하고 건강 불평등을 해결하는 데 중요하다. 이번 연구에서는 전통적인 회귀 모델에 비해 설명 가능한 기계 학습 모델이 향상된 예측 정확도와 LC 사망률에 영향을 미치는 요인들에 대한 더 깊은 통찰력을 제공할 수 있는지 분석하였다. 이 연구에서는 랜덤 포레스트(RF), 그래디언트 부스팅 회귀(GBR), 선형 회귀(LR) 모델을 사용하여 미국 전역의 카운티별 LC 사망률을 예측하였으며, 모델 성능은 R-squared와 RMSE를 통해 평가하였다. 변수 중요도와 방향적인 영향력을 결정하기 위해 SHAP 값을 사용하였고, 지리적 불평등성을 분석하기 위해 Getis-Ord (Gi*) 핫스팟 분석을 수행하였다.💡 논문 핵심 해설 (Deep Analysis)

SHAP 분석을 통해 흡연률이 가장 중요한 예측 변수로 나타났고, 이어 집값 중앙값과 히스패닉 인구 비율이 중요하게 작용한다는 것을 확인하였다. 이러한 결과는 LC 사망률에 영향을 미치는 주요 요인들을 식별함으로써 건강 개입 정책의 효과적인 설계와 실행에 중요한 정보를 제공한다.
또한, 지리적 분석을 통해 미국 중동부 카운티에서 높은 LC 사망률 클러스터가 존재한다는 사실이 밝혀졌다. 이는 특정 지역에서의 건강 불평등성을 확인하고 이를 해결하기 위한 대응책을 마련하는 데 중요한 통찰력을 제공한다.
📄 논문 본문 발췌 (Excerpt)
📸 추가 이미지 갤러리

Reference
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.