대장암 단계 예측의 역학습: 고차원 희소 데이터에서 기계학습이 실패하는 이유

** 본 논문은 대장암 환자 462명의 수술 전·후 데이터를 활용해, 수술 시점의 면역·생화학적 지표와 임상 정보를 기반으로 TNM 단계와 생존 기간을 예측하고자 한다. 원본 데이터는 84개의 변수(연령·성별 등 물리적 정보, 다양한 T‑세포 서브셋, 단백질 농도, 수술 부위·크기 등)로 구성되었으며, 결측치 비율이 11.32%에 달하고 일부 변수는 40% 이상, 일부 환자는 30% 이상 결측을 보였다. 이러한 결측 문제를 해결하기 위해 평균·중위수·최빈값 대체 방식을 적용했으며, 전문가 지식과 상관관계 분석을 통해 약 50개의 핵심 변수를 선정하였다. 예측 모델링에는 Naïve Bayes, Bayesian Network, CART, 다층 퍼셉트론(MLP), 서포트 벡터 머신(SVM) 등 5가지 알고리즘을 사용했으며, 각 알고리즘을 55, 45, 35개의 변수 집합에 대해 10‑fold, 5‑fold, 33% 랜덤 분할 세 가지 검증 방식으로 평가하였다. 전체 4단계(TNMⅠ‑Ⅳ) 예측에서는 1·4단계가 비교적 구분 가능했으나, 임상적으로 가장 중요한 2·3단계는 정확도가 55% 이하에 머물렀다. 특히, 학습 데이터에서는 80–98%의 높은 정확도를 기록했지만, 테스트 데이터에서는 50% 이하, 경우에 따라 40% 미만으로 급격히 감소하였다. 이는 단순 과적합이 아니라 ‘역학습(anti‑learning)’ 현상으로 해석된다. 역학습은 모델이 제한된 훈련 샘플을 암기하면서, 테스트 샘플에 대해 일관되게 반대 예측을 내놓는 현상이다. 저자는 이를 설명하기 위해 XOR 문제를 예시로 들었다. XOR 데이터는 비선형 관계를 갖지만, 훈련에 전체 입력 조합의 일부만 제공하면 모델은 테스트에서 100% 오답을 낸다. 실제 대장암 데이터에서도 55, 45, 35개의 변수 집합에 대해 학습 알고리즘은 49–52%의 정확도(무작위 추측 수준)였으며, 예측값을 뒤집은 ‘anti‑learning’은 55–58%로 일관적으로 우수했다. Boosting을 결합한 경우에도 성능은 더 낮아졌다. 또한, 은닉 유닛 수를 변화시킨 ANN 실험에서, 은닉 유닛을 늘릴수록 학습 정확도는 거의 100%에 도달했지만 테스트 정확도는 50% 이하로 유지되었다. 이는 데이터가 충분히 대표되지 않아 모델이 일반화 가능한 특징을 학습하지 못하고, 오히려 데이터의 잡음이나 특이 패턴을 기억하기 때문이다. 저자는 이러한 결과를 바탕으로 데이터 자체의 구조적 한계를 지적한다. 첫째, 차원에 비해 샘플 수가 현저히 적어 고차원 공간을 충분히 탐색하지 못한다. 둘째, 결측치와 이진화된 임상 지표가 많아 정보 손실이 크다. 셋째, 변수 간 복잡한 비선형 상호작용이 존재하지만, 관측된 샘플이 부족해 모델이 이를 포착하지 못한다. 따라서 기존의 지도학습 알고리즘을 그대로 적용하는 것은 부적절하며, 데이터 증강, 차원 축소, 혹은 역학습을 활용한 새로운 평가 프레임워크가 필요함을 제안한다. 결론적으로, 대장암 단계 예측에서 특히 TNM 2·3 단계는 현재 수집된 면역·생화학적 지표만으로는 충분히 구분되지 않으며, 기존 모델은 테스트에서 무작위 추측보다도 못한 성능을 보인다. 향후 연구는 더 많은 환자 샘플 확보, 결측 데이터 보완, 비선형 관계를 포착할 수 있는 딥러닝 구조 설계, 그리고 역학습 현상을 정량화하고 활용하는 방법론 개발에 초점을 맞춰야 한다. **

대장암 단계 예측의 역학습: 고차원 희소 데이터에서 기계학습이 실패하는 이유

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기