프레이밍햄 위험점수 투명성 강화: 논리 기반 XAI 해법

본 논문은 프레이밍햄 심혈관 위험점수(FRS)의 불투명성을 해소하기 위해 1차 논리와 SMT 솔버(z3)를 활용한 설명 엔진을 제안한다. 입력 변수의 최소 충분 집합(귀납적 설명)과 변형 가능한 변수의 최소 변경 집합(반사실 설명)을 자동으로 도출함으로써 위험 등급의 근거와 위험 감소 방안을 명시한다. 22,000개의 모든 가능한 입력 조합을 대상으로 실험했으며, 연령·수축기 혈압 등 비가변 요인이 귀납적 설명에, 혈압·콜레스테롤 등 가변 요인…

저자: Emannuel L. de A. Bezerra, Luiz H. T. Viana, Vinícius P. Chagas

**배경 및 필요성** 심혈관 질환(CVD)은 전 세계 사망 원인 1위이며, 조기 위험 예측이 예방 전략의 핵심이다. 프레이밍햄 위험점수(FRS)는 10년 내 심혈관 사건 발생 위험을 추정하는 가장 널리 사용되는 도구 중 하나로, 연령, 총 콜레스테롤, HDL‑콜레스테롤, 수축기 혈압, 흡연 여부, 당뇨 여부 등 여섯 가지 변수를 점수화하여 저·중·고위험으로 분류한다. 그러나 FRS는 단순히 점수와 위험 등급만을 제공하고, “왜 이 점수가 나왔는가” 혹은 “어떤 변수를 바꾸면 위험이 낮아지는가”에 대한 설명을 제공하지 않는다. 이러한 불투명성은 임상의의 신뢰를 저하시킬 뿐 아니라, 환자에게 구체적인 생활 습관 개선 지침을 제시하기 어렵게 만든다. **연구 목표** 본 연구는 FRS의 불투명성을 해소하고, 임상의와 환자 모두가 이해하고 활용할 수 있는 설명을 자동으로 생성하는 논리 기반 XAI 프레임워크를 제안한다. 구체적으로는 (1) 위험 등급을 정당화하는 최소 충분 변수 집합(귀납적 설명)을 도출하고, (2) 위험 등급을 낮추기 위해 최소한으로 수정해야 하는 가변 변수 집합(반사실 설명)을 제시한다. **방법론** 1. **논리 모델링**: FRS의 점수 부여 규칙과 위험 등급 매핑을 1차 논리식으로 변환한다. 연령, HDL, 총 콜레스테롤, 수축기 혈압 등 연속 변수는 구간별 점수 부여를 “if‑then” 형태의 함의식으로 표현하고, 흡연·당뇨와 같은 이진 변수는 논리합·곱으로 기술한다. 전체 점수와 위험 등급 매핑도 동일하게 논리식 집합으로 만든다. 2. **SMT 기반 설명 엔진**: Z3 SMT 솔버를 활용해 두 종류의 설명을 생성한다. - *귀납적 설명*: 현재 위험 등급 G를 논리적 귀결(Γ ⊨ G)으로 보고, Γ에서 변수를 하나씩 제거하면서 여전히 G가 귀결되는지를 SAT 검증한다. 제거해도 귀결이 유지되면 해당 변수는 불필요하므로 제외하고, 최종적으로 남는 변수 집합이 최소 충분 조건이 된다. - *반사실 설명*: 목표 위험 등급 G′(예: low risk)를 설정하고, 현재 변수 집합 Γ에 가변 변수만을 추가하면서 Γ ∪ {¬G′}가 불충족될 때까지 탐색한다. 이때 추가된 변수 집합이 최소 변경 집합이며, 각 변수의 구체적인 값 변화를 제시한다. 3. **데이터 생성**: FRS 입력 변수의 모든 가능한 조합을 완전 열거한다. 연속 변수는 FRS 가이드라인에 정의된 구간(연령 10구간, HDL 5구간 등)으로 이산화하여, 남성·여성 각각 22,000개의 고유 입력 케이스를 만든다. 4. **실험 수행**: 생성된 22,000 케이스를 논리 모델에 입력하고, Z3를 이용해 각각에 대해 귀납적·반사실 설명을 자동으로 도출한다. 설명의 희소성(포함 변수 수)과 변수별 등장 빈도를 분석한다. **주요 결과** - **귀납적 설명**: 전체 케이스 중 77%가 5개 이상의 변수를 포함했으며, 가장 빈번하게 등장한 변수는 연령(98.2%)과 수축기 혈압(92.4%)였다. 이는 비가변 요인(연령·성별)이 위험 등급을 정당화하는 데 핵심 역할을 함을 보여준다. 가변 요인(혈압, 콜레스테롤, 흡연, HDL)은 50~75%의 케이스에서 포함되어, 위험 수준을 설명하는 보조 역할을 한다. - **반사실 설명**: 80% 이상이 1~2개의 변수만으로 위험 등급 전환이 가능했다. 특히 수축기 혈압과 총 콜레스테롤이 각각 40% 이상에서 주요 변인으로 등장했으며, 흡연 상태와 HDL는 상대적으로 낮은 빈도를 보였다. 이는 혈압 조절이나 콜레스테롤 관리가 위험 감소에 가장 직접적인 영향을 미친다는 임상적 직관과 일치한다. - **설명 희소성**: 귀납적 설명은 평균 6~7개의 변수를 포함해 다변량 상호작용을 강조하는 반면, 반사실 설명은 평균 1.5개의 변수를 포함해 간결하고 실행 가능한 개입 방안을 제공한다. **의의 및 한계** 본 논문은 FRS와 같은 전통적 점수 기반 모델에 논리적 정확성을 갖춘 XAI를 적용함으로써, (1) 모델 결과에 대한 신뢰성을 높이고, (2) 임상의가 환자에게 구체적인 생활 습관 개선 목표를 제시할 수 있게 한다는 점에서 큰 의의를 가진다. 또한, SMT 솔버를 활용한 전수 탐색 방식은 근사화 없이 완전한 설명을 보장한다. 하지만 몇 가지 제한점도 존재한다. 첫째, FRS 자체가 구간별 점수 체계이므로 연속 변수의 미세한 변화를 반영하지 못한다. 둘째, 본 연구는 합성 데이터에만 기반했으며, 실제 환자 코호트에 대한 외부 검증이 부족하다. 셋째, 현재 구현은 남성·여성 두 성별에 대해서만 별도 모델링했으며, 인종·지역 특성을 반영한 확장은 아직 이루어지지 않았다. **향후 연구 방향** - 실제 임상 데이터에 적용하여 설명의 임상적 유효성을 평가하고, 의료 현장에서의 사용자 인터페이스(UI) 설계 연구를 진행한다. - QRISK, ASCVD 등 다른 심혈관 위험 예측 모델에도 동일한 논리 기반 설명기를 적용해 범용성을 검증한다. - 연속 변수에 대한 미세 조정 효과를 포착하기 위해 구간 내 선형 보간 모델을 도입하고, 다중 목표(예: 비용·부작용 최소화) 최적화를 포함한 다목적 반사실 설명을 탐색한다. **결론** 논리 기반 XAI 프레임워크는 프레이밍햄 위험점수의 불투명성을 효과적으로 해소하고, 위험 등급의 근거와 위험 감소를 위한 구체적 개입 방안을 동시에 제공한다. 전수 검증을 통한 높은 설명 정확도와 변수 희소성 분석을 통해, 임상의와 환자 모두에게 실용적인 의사결정 지원 도구로 활용될 가능성을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기