가스트릭‑X: 위암 진단을 위한 다중모달·멀티페이즈 대규모 벤치마크

가스트릭‑X는 1,700명의 위암 환자를 대상으로 멀티페이즈 3D CT, 내시경 사진, 11종 혈액·생화학 지표, 정밀 병리·영상 보고서, 그리고 종양 영역 3D 바운딩 박스를 모두 포함한 종합 데이터셋이다. VQA, 보고서 생성, 교차‑모달 검색, 질병 분류, 병변 위치 추정 등 5가지 임상 핵심 작업을 위한 표준 벤치마크를 제공하며, 최신 일반·의료 전용 비전‑언어 모델을 다중모달 입력에 맞게 변형해 성능을 평가한다.

저자: Sheng Lu, Hao Chen, Rui Yin

가스트릭‑X: 위암 진단을 위한 다중모달·멀티페이즈 대규모 벤치마크
본 논문은 위암 진단에 필요한 실제 임상 워크플로우를 그대로 재현한 대규모 멀티모달 데이터셋 ‘가스트릭‑X’를 소개한다. 데이터는 1,700명(총 7.1K CT 스캔, 83.48K 슬라이스) 환자를 대상으로 수집됐으며, 네 가지 CT 페이즈(비조영, 동맥기, 정맥기, 평형기)를 3D 볼륨 형태로 제공한다. 각 페이즈마다 종양, 림프절, 위 전체를 포함한 3개의 3D 바운딩 박스가 라벨링돼 총 21,408개의 정밀 영역 정보를 제공한다. 또한, 내시경 사진 1,700장과 11개의 혈액·생화학 지표, 5개의 종양 마커, 134개의 전자건강기록(EHR) 항목을 구조화된 테이블 형태로 포함한다. 환자마다 CT 보고서, 내시경 보고서, 최종 진단 보고서(병리 확인 포함)라는 세 종류의 텍스트가 제공되며, 이를 바탕으로 26,760개의 VQA 쌍이 설계돼 ‘이미지‑수치‑텍스트’ 간 연계 추론을 평가한다. 데이터셋 설계 원칙은 (1) 임상의가 실제로 활용하는 모든 근거를 포괄, (2) 정밀 라벨링을 통한 정량적 평가 가능, (3) 다양한 연구 과제에 적용 가능한 표준 벤치마크 제공이다. 이를 위해 기존 의료 VLM 데이터셋(예: PathVQA, PadChest, MedVL‑CT69K 등)과 비교한 표 1을 제시했으며, 가스트릭‑X는 멀티페이즈 영상, 바이오마커, 정밀 바운딩 박스, VQA를 모두 갖춘 유일한 데이터셋임을 강조한다. 벤치마크는 다섯 가지 핵심 작업으로 구성된다. 첫째, Visual Question Answering(VQA)에서는 모델이 CT·내시경·바이오마커 정보를 종합해 질문에 답하도록 한다. 둘째, 보고서 생성(Report Generation)에서는 이미지와 바이오마커를 입력으로 받아 임상 수준의 방사선·내시경 보고서를 자동 생성한다. 셋째, 교차‑모달 검색(Cross‑modal Retrieval)에서는 텍스트 쿼리와 가장 연관된 CT·내시경 이미지 쌍을 찾아낸다. 넷째, 질병 분류(Disease Classification)에서는 TNM 단계와 전체 병기 예측을 수행한다. 다섯째, 병변 위치 추정(Lesion Localization)에서는 3D 바운딩 박스를 예측해 정확한 종양·림프절 위치를 찾는다. 모델 적응 측면에서는 일반 VLM(LLaVA‑1.5‑7B, BLIP‑2, X2‑VLM)과 의료 전용 VLM(LLaVA‑Med‑v1.5, Med‑Flamingo, Med‑ViNT)을 선택했다. 일반 VLM은 다채널 입력을 위해 CT 페이즈를 채널 차원으로 결합하거나, 3D Swin‑Transformer로 비전 인코더를 교체해 3D 정보를 직접 처리하도록 변형했다. 의료 VLM은 기존에 설계된 멀티모달 프롬프트와 파인튜닝 기법을 활용해 동일한 입력 포맷에 맞추었다. 초기 실험 결과, 모든 모델이 VQA와 보고서 생성에서 인간 수준에 도달하지 못했으며, 특히 바이오마커와 영상 간 연계 추론에서 성능 격차가 크게 나타났다. 이는 현재 VLM이 정량적 수치 데이터와 시각적 특징을 효과적으로 융합하는 메커니즘이 부족함을 의미한다. 논문은 또한 데이터셋 구축 과정에서의 윤리적·법적 고려사항(환자 동의, 익명화, 데이터 사용 계약)과 한계점(케이스 수 제한, 특정 장비·프로토콜에 편중)도 기술한다. 향후 연구 방향으로는 (1) 대규모 사전학습을 통한 멀티모달 일반화, (2) 3D‑텍스트 어텐션 메커니즘 고도화, (3) 임상 의사결정 지원 시스템에의 직접 적용 및 실시간 피드백 루프 구축을 제시한다. 결론적으로, 가스트릭‑X는 위암 진단에 필요한 복합 정보를 통합한 최초의 대규모 멀티모달 벤치마크이며, 현재 VLM의 한계를 명확히 드러내고 차세대 의료 AI 연구를 촉진하는 중요한 기반 자료가 될 것으로 기대한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기