현실 적용 가능한 전자병리 슬라이드 자동 분류 시스템

본 연구는 피부 병리학에서 현미경 검사를 대체하거나 보조할 수 있는 딥러닝 기반 전자병리 슬라이드 분류 시스템(PDLS)을 개발하고, 실제 임상 현장에서 사용될 수 있는지 검증한다. 배경으로는 미국에서 연간 12 백만 건 이상의 피부 병변이 생검되고, 그 중 5 백만 건 이상이 피부암으로 진단된다는 점, 그리고 병리학자 간 진단 일치도가 90~95 %에 머무르면서도 멜라닌성 병변(특히 흑색종 vs. 양성 모반)에서 높은 불일치가 발생한다는 점을 들었다. 이러한 상황에서 디지털 병리학의 확산과 함께 대용량 전자 슬라이드(WSI) 데이터를 효율적으로 분석할 수 있는 자동화 도구가 필요하다. 데이터는 두 부분으로 구성된다. 첫 번째는 ‘레퍼런스 랩’에서 수집한 5,070장의 H&E‑염색 슬라이드이며, 이 데이터를 이용해 모델을 학습한다. 두 번째는 ‘테스트 랩’ 3곳에서 연속적으로 수집한 13,537장의 비선별 슬라이드이며, 각 랩은 서로 다른 스캐너(3개 제조사)와 염색·조직 처리 프로토콜을 사용한다. 테스트 셋은 전혀 제외하거나 전처리하지 않은 상태로 사용했으며, 이는 현재까지 병리학 분야에서 가장 규모가 큰 실제 환경 검증 셋이다. 모델 구조는 세 단계의 CNN으로 이루어진 파이프라인이다. 1) CNN‑1: 이미지 색상·조명 차이를 보정해 공통 특징 공간으로 매핑한다(도메인 적응). 2) CNN‑2: 보정된 이미지에서 조직이 존재하는 ROI를 자동 검출한다. 3) CNN‑3: ROI 패치를 입력으로 받아 4가지 조직 유형(기저세포, 편평상피, 멜라닌성, 기타) 중 하나로 분류한다. 각 단계는 독립적으로 학습되었으며, 특히 CNN‑3는 각 테스트 랩별 520장의 캘리브레이션 셋을 이용해 미세 조정(fine‑tuning)함으로써 현장 간 변이성을 감소시켰다. 모델은 30번의 반복 추론을 수행해 각 클래스에 대한 시그모이드 평균을 구하고, 이를 신뢰도 점수(confidence score)로 활용한다. 신뢰도 점수는 Gal et al.의 Monte‑Carlo Dropout 기반 베이지안 추정 방법을 적용했으며, 레퍼런스 랩 검증 셋을 이용해 90 %, 95 %, 98 % 정확도 목표에 맞는 임계값을 사전에 정의했다. 임계값 이하의 예측은 ‘불확실’로 간주해 결과에서 제외한다. 성능 결과는 다음과 같다. 신뢰도 필터링을 적용하지 않은 경우 전체 정확도는 78 %였으며, 이는 기존 연구와 비슷한 수준이다. 신뢰도 레벨 1(90 % 정확도 목표)에서는 83 %의 슬라이드가 포함돼 평균 정확도 83 %를 달성했다. 레벨 2(95 % 목표)에서는 46 % 슬라이드가 남아 94 % 정확도, 레벨 3(98 % 목표)에서는 20 % 슬라이드만 남지만 정확도는 98 %에 도달했다. ROC 곡선과 AUC 분석에서도 레벨이 상승할수록 AUC가 향상되는 것을 확인했다. 시각적 분석을 위해 t‑SNE를 활용했으며, 이미지 적응 전후의 특징 공간을 비교했다. 적응 전에는 슬라이드가 실험실별로 뚜렷하게 클러스터링되었으나, 적응 후에는 클래스별로 잘 구분되는 형태로 변환되었다. 이는 도메인 적응이 스캐너·염색 차이를 효과적으로 보정했음을 의미한다. 또한 CNN‑3의 내부 특징 공간에서도 4가지 클래스가 명확히 구분되는 것을 확인했다. 처리 시간 측면에서는 파이프라인을 GPU 기반으로 병렬화하여 평균 137 초(≈2.3 분) 내에 한 장을 처리했으며, 전체 처리량은 40 WSI/시간이었다. 각 단계별 소요 시간도 상세히 보고했으며, ROI 검출이 실패한 경우(즉, 조직이 전혀 검출되지 않은 경우)에는 처리 시간이 약간 감소한다. 논의에서는 다음과 같은 점을 강조한다. 첫째, 다중 실험실·다중 스캐너 환경에서도 높은 정확도를 유지할 수 있는 모델을 구축했다는 점. 둘째, 신뢰도 기반 필터링을 통해 ‘불확실’한 사례를 자동으로 배제함으로써 실제 임상에서의 위험을 최소화했다는 점. 셋째, 기존 연구가 주로 2~3개의 병리 클래스에 국한되었거나, 정제된 데이터셋을 사용한 반면, 본 연구는 4개의 대분류와 비선별 대규모 데이터를 사용했다는 점이다. 한계점으로는 세부 진단(예: 악성 흑색종 vs. 양성 모반) 구분이 아직 미흡하고, 신뢰도 임계값이 고정되어 있어 현장 상황에 따라 동적으로 조정하기 어려울 수 있다는 점을 들었다. 또한 캘리브레이션 셋 규모가 상대적으로 작아(각 실험실당 520장) 더 큰 규모의 외부 검증이 필요하다. 결론적으로, 이 시스템은 디지털 병리학 워크플로에 직접 적용 가능한 수준의 정확도와 속도를 제공하며, 특히 신뢰도 점수를 활용한 ‘안전망’이 실제 임상 채택에 큰 장점을 제공한다. 향후 연구에서는 세부 병리 구분 확대, 실시간 피드백 기반 모델 업데이트, 그리고 다양한 조직·염색 유형을 포함한 멀티모달 학습이 필요할 것이다.

현실 적용 가능한 전자병리 슬라이드 자동 분류 시스템

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기