정밀한 당뇨망막증 등급을 위한 이중주의 주의 메커니즘 네트워크
본 논문은 당뇨망막증(DR) 등급을 5단계로 자동 분류하기 위해, ResNet 기반 특징 추출에 주의 메커니즘과 이중(양방향) bilinear 구조를 결합한 BiRA‑Net을 제안한다. 또한 등급 간 거리 정보를 반영한 가중 소프트맥스 손실인 grading loss를 도입해 학습 수렴 속도와 분류 정확도를 향상시켰다. Kaggle DR 데이터셋에서 기존 VGG‑fusion 모델을 능가하는 성능을 기록하였다.
저자: Ziyuan Zhao, Kerui Zhang, Xuejie Hao
본 논문은 당뇨망막증(DR) 진단에서 질병의 중증도를 0~4의 5단계로 자동 분류하는 문제를 다룬다. 기존 연구는 주로 이진 분류(DR 존재 여부) 혹은 손으로 만든 특징에 의존했으며, 미세 병변(미세동맥류, 출혈 등)의 중요성을 충분히 반영하지 못했다. 이를 해결하기 위해 저자들은 BiRA‑Net이라는 새로운 딥러닝 아키텍처를 제안한다.
BiRA‑Net은 크게 세 부분으로 구성된다. 첫 번째는 사전 학습된 ResNet‑50을 이용해 입력 이미지에서 100채널, 20×20 크기의 고수준 특징 맵을 추출한다. ResNet은 shortcut 연결을 통해 깊은 네트워크에서도 기울기 소실을 방지하고, 파라미터 증가 없이 효율적인 학습을 가능하게 한다. 두 번째는 Attention Net이다. 여기서는 Net‑A라는 1×1 컨볼루션 3층 네트워크를 사용해 각 채널별 20개의 주의 맵을 생성한다. 시그모이드 함수를 적용해 0~1 사이의 가중치를 얻고, 원본 특징 맵과 원소별 곱셈을 수행한 뒤 전역 평균 풀링(GAP)을 적용한다. 이후 주의 맵과 특징 맵의 GAP 결과를 원소별 나눗셈함으로써, 관심 영역을 강조하고 배경 잡음을 억제한다. 이 과정은 의료 영상에서 미세 병변이 전체 이미지에 비해 매우 작은 비중을 차지한다는 점을 고려한 설계이며, 임상의가 특정 병변에 집중하는 과정을 모방한다.
세 번째는 Bilinear Net이다. 두 개의 동일한 RA‑Net 스트림을 동시에 학습시키는 대칭 bilinear 전략을 채택한다. 한 스트림은 Attention Net의 출력, 다른 스트림은 ResNet 출력에 1×1 컨볼루션과 ReLU를 적용해 차원을 맞춘 뒤, 원소별 평균 연산을 통해 Zₗ을 만든다. 이후 Z와 Zᵀ의 외적을 취해 bilinear 벡터 B를 생성하고, 부호 제곱근(signed‑sqrt)과 L2 정규화를 적용한다. 이 bilinear 풀링은 두 특징 공간의 상호작용을 고차원 표현으로 압축해, 미세한 차이를 구분하는 fine‑grained 분류에 유리하다.
손실 함수 측면에서 기존 교차 엔트로피는 모든 오분류에 동일한 페널티를 부여하지만, DR 등급은 연속적인 진행 단계(0~4)로서 등급 간 거리가 의미가 있다. 논문은 “grading loss”라 명명한 가중 소프트맥스를 제안한다. 손실 L_seq(x, y) = weight_y·(−log softmax(x, y))에서 weight_y = |argmax(x) − y| + 1을 사용해, 예측이 실제 등급에서 멀어질수록 가중치가 커지도록 설계하였다. 전체 가중치는 모든 가능한 등급 차이의 합(M)으로 정규화한다. 이 방식은 등급 간 순서 정보를 손실에 반영해, 모델이 “극단적인” 오분류를 피하도록 유도한다.
실험은 Kaggle DR 데이터(35,126장) 중 1,560장을 균형 잡힌 검증 셋으로, 나머지를 학습에 사용하였다. 이미지 전처리는 배경 검은 사각형 제거, 610×610 리사이즈, 평균·표준편차 정규화, 히스토그램 평활화 등을 포함한다. 데이터 증강으로 ±10° 회전 및 좌·우·상·하 플립을 적용했으며, 클래스 불균형을 완화하기 위해 가중 랜덤 샘플링을 적용하였다. 최적화는 SGD(momentum = 0.9, weight decay = 5e‑7)와 초기 학습률 0.01로 진행하였다.
성능 평가는 평균 정확도(ACA), macro‑F1, micro‑F1를 사용했으며, BiRA‑Net은 ACA = 0.5431, macro‑F1 = 0.5725, micro‑F1 = 0.5436으로 기존 최첨단 VGG‑fusion 모델(ACA = 0.5051)보다 현저히 우수했다. Ablation 실험에서 Bilinear 전략만 적용한 Bi‑ResNet, 단일 스트림 RA‑Net 등과 비교했을 때, 전체 구조와 grading loss를 모두 포함했을 때 가장 높은 성능을 보였다. 특히, grading loss를 교차 엔트로피로 교체했을 경우 ACA가 0.5424로 약간 감소했으며, 수렴 속도에서도 차이가 관찰되었다. 혼동 행렬 분석은 1급(경증)과 0급(정상) 사이의 구분이 가장 어려운 반면, 4급(증식기)과 같은 고등급은 비교적 정확히 분류됨을 보여준다.
결론적으로, BiRA‑Net은 주의 메커니즘과 bilinear 결합을 통해 미세 병변을 효과적으로 포착하고, 등급 순서 정보를 손실에 반영함으로써 DR 등급 분류에서 기존 방법을 능가한다. 다만, 단일 데이터셋·단일 GPU 환경에서의 평가에 국한되었으며, 외부 병원 데이터에 대한 일반화 검증과 모델 해석 가능성 확보가 향후 과제로 남는다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기