다중 사이트 rs‑fMRI 연결성 연구의 통계적 힘과 예측 정확도

본 연구는 8개 사이트에서 수집된 345명의 정상 성인 rs‑fMRI 데이터를 이용해 사이트 간 연결성 차이를 정량화하고, 이러한 차이가 그룹 비교(GLM)와 집단 예측(SVM)의 통계적 검정력 및 정확도에 미치는 영향을 Monte‑Carlo 시뮬레이션으로 평가한다. 결과는 사이트 효과가 평균 Cohen’s d < 0.5로 작으며, 표본 크기가 100명 이상이면 GLM 검정력 저하가 미미하고, 예측 정확도는 다소 감소하지만 충분히 큰 표본이면 …

저자: Christian Dansereau, Yassine Benhajali, Celine Risterucci

다중 사이트 rs‑fMRI 연결성 연구의 통계적 힘과 예측 정확도
본 논문은 다중 사이트(resting‑state functional magnetic resonance imaging, rs‑fMRI) 연구에서 흔히 발생하는 ‘사이트 효과’가 기능적 연결성 측정과 통계적 검정·예측에 미치는 영향을 실증적으로 평가한다. 연구 대상은 1000 Functional Connectome Project에서 선정된 8개 연구소(독일, 영국, 호주, 미국)에서 3 T 스캐너로 촬영된 345명의 젊은 성인(18‑46 세)이며, 각 사이트는 스캔 파라미터(TR, 슬라이스 수, 볼륨 수 등)와 인구통계학적 특성이 다소 상이하였다. 데이터 전처리는 슬라이스 타이밍 보정, 6 mm 가우시안 스무딩, 움직임 스크러빙(프레임 디스플레이 >0.5 mm 제거), 그리고 백색질·뇌실·모션 파라미터 회귀를 포함한다. 연결성 측정은 100개의 뇌 영역(bootstrapped stable clustering 기반) 간 피어슨 상관을 Fisher 변환한 값으로 정의하였다. 사이트 간 차이는 각 연결에 대해 평균값 차이의 절대값으로 계산하고, 연령·성별·잔여 움직임을 공변량으로 포함한 GLM을 통해 β‑값과 p‑값을 추정하였다. 다중 비교 보정을 위해 Benjamini‑Hochberg FDR(q=0.05)을 적용했다. 결과는 전체 연결 중 약 70 %에서 유의한 사이트 차이가 관찰됐지만, 효과 크기(Cohen’s d)는 평균 0.34, 최대 0.48으로 ‘작음‑중간’ 수준에 머물렀다. 이는 기존 연구에서 보고된 스캐너 제조사·필드 강도 차이보다 작으며, 사이트 효과가 전체 변동성의 일부에 불과함을 시사한다. 다음으로, 실제 데이터를 토대로 Monte‑Carlo 시뮬레이션을 수행했다. 시뮬레이션은 (1) 가상의 병리학적 효과를 특정 연결에 삽입, (2) 효과 크기(δ = 0.2 ~ 0.8), (3) 표본 크기(N = 40, 80, 120, 200) 및 (4) 그룹을 사이트별로 균등 혹은 불균등하게 배치하는 네 가지 시나리오를 설정하였다. 두 분석 파이프라인을 적용했는데, 첫 번째는 각 연결을 독립적으로 검정하는 GLM이며, 두 번째는 전체 연결 행렬을 입력으로 하는 선형 SVM(soft‑margin)이다. 각 시뮬레이션에서 1000번 반복하여 검정력(통계적 유의성 비율)과 예측 정확도(교차 검증 평균 정확도)를 계산하였다. GLM 결과는 멀티사이트 설계가 단일 사이트 대비 검정력이 약 5 % 감소했으며, 특히 표본이 100명 이상이면 차이가 1 % 미만으로 수렴했다. 이는 사이트 효과가 평균 연결값에 미치는 편향이 비교적 작고, 공변량 보정이 충분히 효과적임을 의미한다. 반면 SVM에서는 멀티사이트가 단일 사이트 대비 평균 정확도가 6 %~9 % 낮아졌다. 이는 고차원 특징 공간에서 사이트 간 시스템적 변이가 클래스 경계를 흐리게 만들기 때문이다. 그러나 표본을 120명 이상으로 늘리면 정확도 차이가 2 % 이하로 감소하였다. 또한, 사전 단계에서 사이트 더미 변수를 회귀 제거하는 ‘site‑regression’은 SVM 정확도를 유의하게 개선시키지 못했다. 논의에서는 첫째, 다중 사이트 rs‑fMRI 연구가 충분히 큰 표본(N ≥ 120)과 적절한 공변량 보정을 전제로 할 때, 전통적인 GLM 기반 그룹 차이 검출에서는 사이트 효과가 크게 문제되지 않음을 강조한다. 둘째, 머신러닝 기반 다변량 분석에서는 사이트 편향이 더 큰 영향을 미치므로, ComBat 같은 통계적 harmonization 기법이나 도메인 적응 방법을 추가로 적용할 필요성을 제시한다. 셋째, 실제 임상 연구에서 다중 사이트 데이터를 활용할 경우, 사이트별 표본 균형을 맞추는 것이 검정력과 예측 정확도 모두에 긍정적 영향을 미친다. 마지막으로, 제한점으로는 6 분 정도의 짧은 스캔 시간, 제한된 연령·인종 구성, 그리고 100 개의 파라미터화된 영역에 국한된 분석을 들며, 향후 연구에서는 더 긴 스캔, 다양한 파라미터화, 그리고 비선형 모델을 검토할 것을 제안한다. 결론적으로, 본 연구는 실제 다중 사이트 rs‑fMRI 데이터를 이용해 사이트 효과의 규모를 정량화하고, 이를 기반으로 통계적 검정력과 머신러닝 예측 정확도에 미치는 영향을 체계적으로 평가하였다. 결과는 표본 크기가 충분히 크고 적절한 통계적 보정이 이루어진다면, 다중 사이트 연구가 단일 사이트 연구와 비교해 실질적인 손실 없이도 높은 검정력과 예측 성능을 유지할 수 있음을 뒷받침한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기