다중 스케일 특징 전달을 통한 T Net, 관상동맥 주요 혈관 분할 혁신
본 논문은 U‑Net의 단일 스킵 연결 구조를 확장한 EDiED(Encoder‑Decoder in Encoder‑Decoder) 방식을 도입한 T‑Net을 제안한다. 풀링·업샘플링을 혼합한 블록을 encoder와 decoder 내부에 삽입해 다양한 해상도의 특징 맵을 동시에 생성하고, 이들을 다중 스킵 연결로 decoder 초기에 전달한다. 관상동맥 주요 혈관( LAD, LCX, RCA) 분할 실험에서 DSC 0.815(기존 U‑Net 대비 +…
저자: Tae Joon Jun, Jihoon Kweon, Young-Hak Kim
본 연구는 관상동맥 X‑ray 혈관 촬영 영상에서 주요 혈관(LAD, LCX, RCA)을 정확히 분할하기 위한 새로운 딥러닝 구조인 T‑Net을 제안한다. 기존 의료 영상 분할 분야에서 가장 널리 사용되는 U‑Net은 encoder와 decoder 사이에 동일 해상도 특징 맵을 한 쌍만 연결하는 스킵 구조를 가지고 있다. 이 구조는 encoder가 깊어질수록 고수준 의미 정보를 추출하지만, 해당 정보를 decoder 초기에 활용하지 못하고, 저수준 형태 정보는 decoder 말단에만 전달되는 구조적 제약이 있다. 이러한 제약은 특히 혈관처럼 얇고 복잡한 형태를 가진 구조물의 정밀 분할에 큰 장애가 된다.
T‑Net은 이러한 한계를 극복하기 위해 “Encoder‑Decoder in Encoder‑Decoder”(EDiED) 라는 개념을 도입한다. 구체적으로, encoder 내부에 작은 decoder 블록을 삽입하고, decoder 내부에도 작은 encoder 블록을 삽입함으로써 하나의 블록 안에서 풀링(P)과 업샘플링(U)을 여러 번 교차 적용한다. 예를 들어, T3‑Net은 P‑U‑P 순서로 구성된 블록을 사용해 입력 특징 맵을 한 번 풀링 → 한 번 업샘플링 → 다시 풀링하는 과정을 거치며, 이 과정에서 h/2ⁱ⁻¹, h/2ⁱ, h/2ⁱ⁺¹ 세 가지 해상도의 특징을 동시에 생성한다. 대응하는 decoder 블록은 U‑U‑P 순서로 구성되어 h/2ⁱ⁻³부터 h/2ⁱ⁻¹까지의 크기를 복원한다. 이러한 설계는 동일 레이어가 아닌 서로 다른 해상도 특징들 간에도 스킵 연결을 가능하게 하여, low‑level 형태 정보와 high‑level 의미 정보를 모두 decoder 초기에 전달한다. 결과적으로 decoder는 초기 단계부터 풍부한 컨텍스트를 활용해 경계 잡음이 적고 형태가 정확한 마스크를 생성한다.
논문은 먼저 기존 연구들을 검토한다. 전통적인 혈관 분할 방법은 Hessian 필터, region growing 등 전통적인 이미지 처리 기법에 의존했으며, 최근에는 CNN 기반 U‑Net, VGG‑Net, DenseNet 등을 활용한 접근이 시도되었지만, 주요 혈관만을 정확히 구분하는 데는 한계가 있었다. 특히 Jo 등은 선택적 특징 매핑(SFM)과 U‑Net을 결합했지만 DSC가 0.676에 머물렀다.
제안된 T‑Net의 구조적 세부사항을 설명한 뒤, 다양한 변형 모델(T3‑Net, T5‑Net, T5‑3‑Net 등)을 설계하고, 각 모델에서 풀링·업샘플링 순서와 개수에 따라 생성되는 특징 맵 크기를 수식으로 정리하였다. 이를 통해 T‑Net은 U‑Net에 비해 최대 9배 이상의 스킵 연결을 제공할 수 있음을 보였다.
실험은 1,987장의 관상동맥 X‑ray 영상(훈련 200장, 테스트 1,787장)을 사용했으며, 동일한 데이터 전처리와 학습 파라미터 하에 U‑Net과 T‑Net을 비교하였다. 평가 지표는 Dice Similarity Coefficient(DSC), sensitivity, precision이다. 기본 T‑Net은 DSC 0.815(±0.095), sensitivity 5.71% 향상, precision 12.22% 향상을 기록했으며, 최적화된 T‑Net(블록 수·채널 수 조정)에서는 평균 DSC 0.890, sensitivity 88.32%, precision 90.50%를 달성했다. 또한, Grad‑CAM 유사 방식으로 각 모델의 마지막 convolution 레이어 가중치 활성화를 시각화한 결과, T‑Net은 decoder 초기 단계에서도 주요 혈관 영역에 강하게 반응하는 반면, U‑Net은 후반부에야 집중함을 확인하였다. 이는 다중 스케일 스킵 연결이 학습 과정에서 특징 전달 효율을 크게 향상시킨다는 실증적 증거이다.
논문의 마지막에서는 T‑Net의 장점과 한계를 논의한다. 장점으로는 (1) 다양한 해상도 특징을 동시에 활용해 정밀한 경계 복원, (2) 기존 U‑Net 대비 높은 성능, (3) 구조가 비교적 단순해 다른 의료 영상에도 쉽게 적용 가능함을 들었다. 한계점은 블록 내부의 풀링·업샘플링 순서가 데이터 특성에 따라 최적이 달라질 수 있다는 점과, 다중 스킵 연결로 인한 메모리·연산량 증가이다. 향후 연구 방향으로는 (1) 경량화된 T‑Net 설계, (2) 3D 혈관 영상 및 다른 장기(뇌혈관, 종양 등)로의 확장, (3) 자동화된 블록 설계 탐색을 위한 NAS(Neural Architecture Search) 적용 등을 제시한다.
결론적으로, T‑Net은 EDiED 구조를 통해 encoder와 decoder 사이의 다중 스케일 특징 전달을 구현함으로써 관상동맥 주요 혈관 분할에서 기존 U‑Net을 크게 능가하는 성능을 보였으며, 향후 다양한 의료 영상 분야에 적용 가능성이 높은 새로운 아키텍처임을 입증하였다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기