혼합형 바이오마커를 활용한 알츠하이머 진행 단계와 아형 모델링

본 논문은 연속형과 이산형 바이오마커를 동시에 다룰 수 있는 Mixed‑Events 모델을 제안하고, 이를 SuStaIn 프레임워크에 통합한 Mixed‑SuStaIn을 구현한다. 시뮬레이션 및 ADNI 실제 데이터를 통해 두 개의 아형을 발견하고, 기존 EBM‑SuStaIn과 비교해 예측 정확도와 인지 점수와의 상관관계에서 동등하거나 약간 우수한 성능을 보였다.

저자: Sterre de Jonge, Elisabeth J. Vinke, Meike W. Vernooij

혼합형 바이오마커를 활용한 알츠하이머 진행 단계와 아형 모델링
본 논문은 질병 진행 모델링 분야에서 연속형과 이산형 바이오마커를 동시에 다룰 수 있는 새로운 방법론을 제시한다. 기존의 이벤트 기반 모델(EBM)이나 z‑score 기반 모델은 각각 이산형 혹은 연속형 데이터에 특화돼 있어, 실제 임상 연구에서 흔히 마주치는 이질적인 데이터셋을 효과적으로 활용하기 어렵다는 한계가 있었다. 이를 극복하고자 저자들은 Mixed‑Events 모델을 고안했으며, 이를 SuStaIn(Subtype and Stage Inference) 프레임워크에 통합해 Mixed‑SuStaIn이라는 새로운 도구를 구현하였다. Mixed‑Events 모델은 각 바이오마커 i에 대해 세 가지 형태 중 하나를 선택한다. 이진 형태(B)는 정상·비정상 두 상태만을 갖는 전통적인 이벤트 모델이며, 순위 형태(O)는 다중 점수(예: 임상 등급)를 갖는 경우에 적용한다. 연속형 형태(Z)는 z‑score를 이용해 단계별 선형 증가를 가정한다. 모델은 전체 데이터 Xj에 대한 가능도 P(Xj|S)를 각 바이오마커별 조건부 가능도의 곱으로 표현하고, 단계 k에서의 바이오마커 상태에 따라 해당 가능도 함수를 선택한다. 이때 이진·순위 형태는 정상·비정상(또는 점수) 분포를 가우시안 혼합 모델이나 커널 밀도 추정으로 추정하고, 연속형 형태는 정규분포(NormPDF)를 이용해 관측값과 단계별 평균값 사이의 차이를 확률로 변환한다. 이렇게 정의된 통합 가능도는 서로 다른 데이터 타입이 섞여 있어도 하나의 최적 순서 S를 찾을 수 있게 해준다. SuStaIn과 결합하면 여러 아형 C를 동시에 추정할 수 있다. 전체 가능도는 각 아형에 대한 사전 확률 P(c)와 해당 아형의 Mixed‑Events 가능도의 곱으로 구성되며, 5‑fold 교차 검증을 통해 최적 아형 수를 결정한다. 모델 검증을 위해 두 가지 실험이 수행되었다. 첫 번째는 시뮬레이션 실험으로, 피험자 수(J), 아형 수(C), 바이오마커 수(I), 이벤트 값(V) 등을 다양하게 변형하여 10번씩 반복하였다. Kendall’s τ를 사용해 복원된 아형 순서와 실제 생성된 순서 간의 일치도를 평가했으며, 전반적으로 0.6에서 1.0 사이의 높은 상관을 보였다. 피험자 수가 많고 바이오마커가 풍부할수록 정확도가 상승했으며, 아형 수가 늘어날수록 정확도가 다소 감소하는 경향을 보였다. 두 번째는 실제 ADNI 데이터 적용이다. 641명의 피험자(209 CN, 341 MCI, 91 AD)를 대상으로 6개의 연속형 MRI 체적(총뇌, 측실, 해마, 내측측두, 엔토리날, 측두피질)과 3개의 이진형 CSF 바이오마커(아밀로이드‑β42, p‑tau, t‑tau)를 사용했다. 연속형 변수는 정상군을 기준으로 z‑score 정규화하고, 연령·두개강도 보정을 적용했으며, 이진형 변수는 로그 변환 후 가우시안 혼합 모델로 정상·비정상 분포를 추정했다. 최적 아형 수는 교차 검증 결과 2개였으며, 각각의 진행 패턴은 다음과 같다. - 아형 1(352명): 전형적인 AD 진행 순서로, 먼저 CSF 바이오마커가 비정상화되고, 이후 해마·엔토리날·측두피질 위축이 진행된다. - 아형 2(289명): 구조적 위축이 먼저 나타나며, 해마·총뇌·엔토리날 위축이 진행된 뒤에 CSF 변화를 보인다. 이는 기존 연구에서 보고된 “cortical subtype”과 유사하다. 예측 성능을 평가하기 위해 24개월 내 CN→MCI 전이와 MCI→AD 전이를 대상으로 AU‑ROC를 계산했다. Mixed‑SuStaIn은 각각 0.724와 0.828의 AU‑ROC를 기록했으며, 기존 EBM‑SuStaIn은 0.723와 0.825로 거의 동일한 수준을 보였다. 또한 SuStaIn 단계와 MMSE 점수 간의 피어슨 상관계수는 아형 1에서 r = ‑0.69( Mixed‑SuStaIn) vs ‑0.63(EBM‑SuStaIn), 아형 2에서 r = ‑0.43 vs ‑0.41으로, 단계와 인지 저하 사이의 연관성을 충분히 포착함을 확인했다. 결론적으로, Mixed‑Events 모델은 이산형·연속형 데이터를 하나의 프레임워크에서 통합적으로 다룰 수 있는 수학적 기반을 제공한다. 이를 SuStaIn에 적용함으로써 다중 아형을 추정하고, 실제 임상 데이터에서도 기존 모델과 비교해 성능 저하 없이 복합 바이오마커를 활용할 수 있음을 입증했다. 한계점으로는 모델이 가정하는 정규·가우시안 혼합 분포의 적합성 검증이 부족하고, 바이오마커 선택이 사전 정의된 점, 그리고 다른 코호트나 질환에 대한 일반화 검증이 아직 이루어지지 않았다는 점을 들 수 있다. 향후 연구에서는 비선형 z‑score 궤적, 베이지안 비정형 분포, 그리고 파킨슨병·전측두엽 치매 등 다른 신경퇴행성 질환에 대한 적용을 확대할 계획이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기