예측 모델에서 예측인자 가용성에 따른 선택 및 콜라이더 제한 편향

본 논문은 예측인자(피처)의 기록 여부가 환자 선택에 영향을 미칠 때 발생하는 선택 편향과 콜라이더 제한 편향을 이론적·실증적으로 고찰한다. 신장질환 위험 예측 모델(KFRE)을 사례로 들어, 질환 중증도와 임상 판단이 검사의 시행 여부를 동시에 결정함으로써 발생하는 편향 메커니즘을 DAG(Directed Acyclic Graph)로 시각화하고, 이러한 편향이 모델 개발·검증·실제 적용에 미치는 영향을 논의한다.

저자: Marc Delord

본 논문은 임상 예측모델, 특히 장기적인 건강 결과를 예측하는 프로그노스틱 스코어의 개발·검증 과정에서 “예측인자 가용성(predictor availability)”이라는 가정이 어떻게 선택 편향(selection bias)과 콜라이더 제한 편향(collider restriction bias)을 초래할 수 있는지를 체계적으로 탐구한다. 먼저, 예측모델이란 환자의 임상·비임상 특성을 기반으로 특정 기간 내에 발생할 확률을 추정하는 통계적 도구이며, 프라밍햄 위험점수, QRISK3 등 다양한 사례가 존재한다. 최근 수십 년간 예측모델이 급증함에 따라 개발·검증·보고에 관한 지침이 정립되었지만, 이러한 지침은 예측인자가 실제 임상 현장에서 일관되게 기록된다는 전제에 크게 의존한다. 저자는 이 전제가 현실에서는 종종 깨진다는 점을 강조한다. 특히 후향적 데이터베이스를 이용해 모델을 개발하거나 검증할 경우, 기록된 예측인자를 가진 환자만 포함하게 되며, 이는 “측정 기반 제한(measurement-based restriction)”이라고 부른다. 만약 예측인자 측정이 질환의 중증도(U)와 연관되어 있다면, U는 결과(Y)와 예측인자(P) 모두에 영향을 미치게 된다. 이때 P가 관측된 표본만을 분석하면, U에 의해 선택된 환자군이 실제 전체 환자군과 다른 특성을 가지게 되며, 이는 전통적인 선택 편향에 해당한다. 그림 1의 세 패널을 통해 저자는 이러한 메커니즘을 시각화한다. 패널 A는 가장 단순한 형태로, 질환 중증도가 직접 P의 측정 여부를 결정하고, 결과에도 영향을 미치는 경우를 보여준다. 패널 B에서는 P1이 중증도의 프록시(proxy) 역할을 하며, P1이 악화될수록 추가적인 검사가 시행돼 P2가 측정되는 상황을 제시한다. 여기서도 P2의 가용성은 중증도에 의해 선택되므로 선택 편향이 지속된다. 패널 C는 가장 복잡한 경우로, P2의 가용성이 U와 P1 두 경로에 의해 동시에 결정되어 콜라이더가 된다. 콜라이더에 조건부로 분석하면 P1과 U 사이에 인위적인 연관성이 생성되고, 이는 모든 베이스라인 변수와 결과 사이의 추정치를 왜곡한다. 구체적인 사례로 저자는 ‘Kidney Failure Risk Equation (KFRE)’을 들었다. KFRE는 연령, 성별, eGFR(P1), 그리고 알부민뇨비(uACR, P2)를 이용해 만성 신장질환(CKD) 환자의 2·5년 내 신부전 위험을 예측한다. 그러나 실제 임상에서는 eGFR와 uACR 검사가 일관되게 시행되지 않는다. 영국 1차 진료에서는 CKD 환자 중 uACR 검사를 받은 비율이 25~37%에 불과하고, 미국에서도 17% 수준에 머무른다. 이러한 검사의 선택적 시행은 두 가지 경로에 의해 결정된다. 첫째, eGFR가 감소하면 신장 손상의 가능성을 의심해 uACR 검사를 시행한다(중증도→P2). 둘째, 당뇨, 고혈압 등 위험 요인이 존재하면 의사가 사전에 신장 위험을 높게 평가해 검사를 진행한다(위험 인식→P2). 따라서 P2의 가용성은 eGFR와 위험 인식이라는 두 독립적인 요인에 의해 동시에 영향을 받아 콜라이더가 된다. 이러한 콜라이더 제한 편향은 모델 개발 단계에서도 문제를 일으킨다. P2가 기록된 환자만을 대상으로 회귀분석을 수행하면, P1과 P2 사이의 관계가 과대평가되거나, 다른 변수들의 효과가 억제될 수 있다. 외부 검증에서도 동일한 편향이 존재하면, 검증 데이터셋의 특성에 따라 모델의 성능이 크게 변동한다. 이는 모델의 일반화 가능성을 저해하고, 실제 임상 적용 시 위험 예측이 부정확해지는 결과를 초래한다. 저자는 이러한 문제를 해결하기 위한 몇 가지 전략을 제시한다. 첫째, 예측인자를 사전에 정의하고, 가능한 모든 예측인자를 일관되게 수집하도록 전향적 코호트를 설계한다. 둘째, 누락된 예측인자에 대해 다중대체법(Multiple Imputation)이나 역학적 가중치를 적용해 선택 편향을 보정한다. 셋째, 콜라이더가 되는 변수를 모델에서 제외하거나, 콜라이더 효과를 최소화하도록 변수 선택 절차를 조정한다. 넷째, 예측인자 수를 최소화한 단순화된 모델을 개발해, 실제 임상에서 기록 가능성이 높은 변수만을 활용한다. 이러한 접근은 모델의 실용성을 높이고, 편향으로 인한 오류를 감소시킨다. 결론적으로, 예측인자 가용성은 예측모델 개발·검증·실제 적용 전 과정에 걸쳐 핵심적인 가정이며, 이를 무시하면 선택 편향과 콜라이더 제한 편향이 발생한다. 연구자는 이 가정을 명시적으로 검토하고, 데이터 수집 설계와 통계적 보정 방법을 통해 편향을 최소화할 필요가 있음을 강조한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기