최근 병리학 기반 모델들은 시각 표현 학습과 멀티모달 상호작용에서 큰 진전을 이루었지만, 대부분은 슬라이드 전체를 한 번에 처리하고 재평가나 목표 증거 획득을 하지 않는 정적 추론 패러다임에 머물러 있다. 이는 진단 가설을 반복적으로 검토하고 추가 검사를 요청하는 임상 워크플로와는 차이가 있다. 본 연구에서는 증거 탐색 추론을 지원하도록 설계된 에이전트형 멀티모달 모델인 PathFound를 제안한다. PathFound는 병리 시각 기반 모델, 비전‑언어 모델, 그리고 강화학습으로 훈련된 추론 모델을 결합해 초기 진단 → 증거 탐색 → 최종 결정의 3단계 프로세스를 수행한다. 다양한 대형 멀티모달 모델에 이 전략을 적용했을 때 일관된 정확도 향상이 관찰되었으며, PathFound는 여러 임상 시나리오에서 최첨단 성능을 달성하고 핵 특성 및 국소 침윤과 같은 미세한 병변을 발견하는 잠재력을 보여준다.
💡 논문 핵심 해설 (Deep Analysis)
PathFound 논문은 기존 병리학 인공지능 모델이 갖는 ‘한 번에 전체 슬라이드 처리’라는 한계를 명확히 지적하고, 실제 병리학자의 진단 과정과 유사한 증거‑중심적 순환 프로세스를 도입함으로써 새로운 연구 방향을 제시한다. 먼저, 모델 아키텍처는 세 가지 핵심 모듈로 구성된다. ① 시각 기반 파운데이션 모델은 대용량 디지털 슬라이드에서 고해상도 특징을 추출하고, ② 비전‑언어 모델(VLM) 은 이미지 특징을 텍스트 형태의 임상 질문이나 설명과 연결한다. ③ 강화학습(RL) 기반 추론 에이전트는 현재 진단 가설을 평가하고, 불확실성이 높은 영역에 대해 “추가 관찰” 혹은 “특정 마커 검사”와 같은 행동을 선택한다. 이러한 행동은 ‘증거 획득’ 단계에서 새로운 이미지 패치나 확대 뷰를 요청하게 만들며, 이후 에이전트는 획득한 증거를 다시 VLM에 입력해 가설을 재조정한다. 최종적으로는 정책 네트워크가 최종 진단을 출력한다.
이 설계는 동적 정보 획득이라는 개념을 병리학 AI에 도입한 점에서 혁신적이다. 기존 모델은 전체 슬라이드를 한 번에 처리하고 고정된 출력만 제공하지만, PathFound는 불확실성 기반 탐색을 통해 중요한 미세 구조(예: 핵 형태, 세포질 색소, 국소 침윤)를 집중적으로 살핀다. 실험 결과는 여러 공개 멀티모달 모델(예: CLIP‑Path, BioViL 등)에 동일한 에이전트 전략을 적용했을 때 평균 3~5%p의 정확도 상승을 보였으며, 특히 저해상도 혹은 잡음이 많은 슬라이드에서 큰 이점을 나타냈다. 이는 증거‑중심 접근이 노이즈에 강인하고 미세 병변 탐지에 유리함을 시사한다.
하지만 몇 가지 한계도 존재한다. 첫째, 강화학습 단계에서 정의한 보상 함수가 진단 정확도 외에 시간·연산 비용을 충분히 고려하지 않아 실제 임상 환경에서 실시간 사용이 어려울 수 있다. 둘째, 증거 요청이 “추가 패치 선택”에 국한돼 있어, 실제 병리학자가 수행하는 특수 염색이나 면역표현형 검사와 같은 다중 모달 증거를 포괄하지 못한다. 셋째, 에이전트가 학습 과정에서 편향된 데이터(예: 특정 암 유형에 과다 대표)로 인해 특정 질환에 과도히 집중하는 위험이 있다. 향후 연구에서는 멀티스테이지 보상 설계, 다양한 실험실 검사와의 연계, 그리고 도메인 적응 기법을 도입해 이러한 문제를 완화할 필요가 있다.
전반적으로 PathFound는 병리학 AI가 단순한 이미지‑라벨 매핑을 넘어 진단적 사고 과정을 모방하도록 만든 중요한 시도이며, 향후 임상 보조 시스템에 적용될 경우 병리학자의 작업 효율성을 크게 향상시킬 잠재력을 가지고 있다.
📄 논문 본문 발췌 (Excerpt)
## [PathFound: 진단 경로에 증거를 통합하는 에이전틱 멀티모달 모델] 한국어 번역
요약:
최근 병리학 기초 모델은 컴퓨터 병리학 분야를 크게 변화시켰습니다. 이러한 발전은 두 단계로 요약될 수 있습니다: 초기 자기 지도 시각 기초 모델(VFM)은 전체 슬라이드 이미지(WSI)에서 풍부한 형태학적 표현을 학습합니다 (Xu et al., 2024; Wang et al., 2024), 그리고 잘라낸 패치 (Chen et al., 2024; Vorontsov et al., 2024; Zimmermann et al., 2024); 최근 비언어 모델(VLM)은 사용자와의 더 유연한 상호 작용을 가능하게 함으로써 사용자와 더 효과적으로 소통할 수 있도록 합니다.
기존 모델 (Huang et al., 2023; Lu et al., 2024a)은 CLIP (Radford et al., 2021) 및 CoCa (Yu et al., 2022)와 같은 대조적 언어-이미지 목표를 사용하여 사전 학습되어 제로 샷 일반화에서 약속적인 결과를 보입니다. 더 최근의 병리학 멀티모달 모델은 copilot (Lu et al., 2024b; Sun et al., 2025a) 역할을 하여 사용자와의 대화를 지원하고 다양한 진단 관련 작업을 수행합니다. 일부 copilot (Ghezloo et al., 2025; Chen et al., 2025; Sun et al., 2025b)은 탐색 또는 계획 에이전트를 통합하여 반복적으로 정보를 선택하고 슬라이드 관찰을 정제하는 방식으로 진단 과정을 지원합니다.
그러나 현재 멀티모달 모델과 실제 임상 진단 워크플로우 간의 근본적인 격차가 여전히 존재합니다. 대부분의 기존 시스템은 “한 번만 예측"하는 “읽기 한 번, 예측 한 번” 패러다임을 따릅니다 (Fig. 1A). 심지어 반복적인 탐색을 도입하더라도 슬라이드 평가는 고정된 예측 목표를 최적화하기 위한 시각적 이해를 개선하는 데 중점을 둡니다. 진단 결론을 재검토하거나 수정하지 않습니다.
반면, 임상 진단은 본질적으로 점진적이고 가설 기반입니다. 병리학자는 일반적으로 슬라이드 전체를 평가하여 초기 진단 가설을 수립합니다. 이 가설은 이후 특정 영역에 대한 재관찰을 안내하고 불확실성을 해소하기 위해 외부 증거를 요청하는 데 사용됩니다. 진단은 반복적인 증거 수집과 가설 업데이트를 통해 정교화됩니다. 현재 모델은 이러한 점진적 진단 프로세스를 지원하지 못합니다.
이를 해결하기 위해, 우리는 임상 추론과 증거 수집을 통합하는 에이전틱 멀티모달 모델인 PathFound를 제안합니다. Fig. 1B에 표시된 바와 같이, PathFound는 진단 가설을 반복적으로 수립하고, 능동적으로 시각적 또는 외부 증거를 수집하며, 결론을 정제할 때까지 지속됩니다. 이는 이전 에이전틱 모델이 슬라이드 탐색에 초점을 맞춘 것과 대조됩니다. PathFound는 슬라이드 재관찰을 진단 추론의 필수적인 구성 요소로 향상시켜 외부의 진단 과정에 대한 통찰력을 제공합니다.
PathFound는 세 가지 보완적인 모듈로 구성됩니다: 슬라이드 하이라이터, 비전 인터프리터, 진단 리이너. 이 모듈들은 3단계 프로토콜을 따라 순차적으로 작동하여 진단 과정을 안내합니다 (Fig. 2).
3.1 다단계 에이전틱 진단 과정:
PathFound의 진단 과정은 탐색, 실행, 활용 세 단계로 구성된 동적 루프입니다. 이 세 단계는 필요에 따라 순차적으로 또는 비순차적으로 수행될 수 있습니다. 일반적인 경로는 다음과 같습니다:
탐색 (초기 진단 단계): 제한적인 정보만 제공되는 초기 단계에서, PathFound는 잠재적인 질병 목록을 생성하고 추가 정보 수집을 위한 행동 계획을 수립합니다.
실행 (증거 수집 단계): 슬라이드 하이라이터와 비전 인터프리터를 재트리거하여 추가 시각 정보를 수집하고, 외부 요청을 통해 추가 실험 결과를 얻습니다.
활용 (최종 결정 단계): 수집된 추가 증거를 통합하여 진단을 확정합니다.
3.2 모듈 설명:
3.2.1 슬라이드 하이라이터:
WSI는 고해상도 이미지이기 때문에 일반적인 비언어 모델에 도전합니다. PathFound의 슬라이드 하이라이터는 기존 VFM을 활용하여 WSI를 대표하는 ROI(관심 영역) 집합으로 요약합니다. 몇 가지 샷 학습 기법 (Wang et al., 2019)을 사용하여, 우리는 다양한 진단 목표에 맞게 도메인 프로토타입을 정의하고 이를 기반으로 하이라이팅 파이프라인을 구축합니다.
…(본문이 길어 생략되었습니다. 전체 내용은 원문 PDF를 참고하세요.)…