성별 정보를 활용한 3D CT 기반 폐질환 진단 이중 단계 모델
본 논문은 흉부 CT 영상에서 환자의 성별을 먼저 예측하고, 예측된 성별에 따라 별도의 질병 분류기를 적용하는 두 단계 구조를 제안한다. 성별별 데이터 불균형과 특히 편평세포암종의 소수 클래스 문제를 완화시켜, 전체 정확도는 유지하면서 소수 클래스의 F1 점수를 크게 향상시킨다.
저자: Kejin Lu, Jianfa Bai, Qingqiu Li
본 논문은 흉부 CT 영상을 이용한 폐질환 자동 분류에서 발생하는 심각한 클래스 불균형 문제와 인구통계학적 편향을 동시에 해결하고자 하는 연구이다. 특히, 편평세포암종(Squamous Cell Carcinoma)이라는 소수 클래스가 남성 환자에 비해 여성 환자에서 현저히 적은 데이터 분포를 보이며, 이는 기존 딥러닝 모델이 다수 클래스에 편향되는 원인이 된다. 이를 극복하기 위해 저자들은 ‘성별 인식 기반 이중 단계 프레임워크’를 제안한다.
첫 번째 단계는 CT 볼륨 전체를 입력으로 하여 환자의 성별을 예측하는 성별 분류기이다. 3D 백본 네트워크(f)를 통해 고수준 특징(z)을 추출하고, 완전 연결 층과 Softmax를 통해 남성/여성 이진 확률을 출력한다. 손실 함수는 표준 교차 엔트로피이며, Adam 옵티마이저와 초기 학습률 1e‑4, warm‑up 및 cosine decay 스케줄을 사용해 학습한다.
두 번째 단계에서는 첫 단계에서 얻은 성별 예측 결과에 따라 남성 전용 질병 분류기(D_m)와 여성 전용 질병 분류기(D_f) 중 하나를 선택한다. 두 분류기는 동일한 네트워크 구조를 공유하지만, 각각 남성 샘플과 여성 샘플만을 사용해 독립적으로 학습한다. 이렇게 하면 각 성별 그룹에 특화된 해부학적·병리학적 패턴을 모델이 학습할 수 있다. 질병 분류는 네 개의 클래스(선암, 편평세포암, COVID‑19, 정상)를 대상으로 하며, 클래스 불균형을 보정하기 위해 가중치가 부여된 교차 엔트로피 손실(L_disease)을 적용한다.
데이터셋은 총 4개의 질병 카테고리와 성별 라벨을 포함하며, 특히 편평세포암종은 남성 79건, 여성 13건으로 심한 불균형을 보인다. 실험 설정은 3D CT를 고정된 해상도로 리사이즈하고 정규화한 뒤, 배치 크기 8, 100 epoch 학습을 진행한다. 검증 성능이 가장 높은 모델을 최종 선택한다.
성능 평가는 정확도, 매크로 F1, 매크로 AUC를 사용한다. 제안 모델은 전체 정확도 86.49%로 베이스라인(86.45%)과 거의 동일하지만, 매크로 F1이 0.8223에서 0.8482로 크게 상승했다. 이는 소수 클래스인 편평세포암종에서 정밀도와 재현율이 동시에 개선되었음을 의미한다. 매크로 AUC는 약간 감소했지만 차이는 0.0033에 불과해 실질적인 성능 저하로 보기는 어렵다.
논문의 주요 기여는 다음과 같다. 첫째, 성별 불균형이 질병 분류에 미치는 영향을 정량적으로 분석하고, 특히 편평세포암종에서의 성별 편향을 강조한다. 둘째, 성별을 사전 정보로 활용해 두 단계 라우팅 구조를 설계함으로써 데이터 불균형을 완화한다. 셋째, 실험을 통해 제안 방법이 소수 클래스 성능을 크게 향상시키면서 전체적인 정확도는 유지함을 입증한다.
한계점으로는 성별 분류 오류가 질병 분류에 전이될 가능성, 두 단계 구조로 인한 추론 지연, 그리고 성별 외 다른 임상 프라이어(연령, 흡연력 등)를 고려하지 않은 점을 들 수 있다. 향후 연구에서는 다중 임상 프라이어를 통합한 멀티 라우팅 모델, 성별 외에도 연령·인종 등 다양한 인구통계학적 특성을 반영한 다중 전문가 모델, 그리고 라벨링 비용을 최소화하는 반감독 학습 기법을 도입해 보다 일반화된 의료 AI 시스템을 구축할 수 있을 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기