RefineFormer3D 경량 3D 의료 영상 분할을 위한 적응형 멀티스케일 트랜스포머

RefineFormer3D는 GhostConv3D 기반 패치 임베딩, 저랭크 MixFFN3D, 그리고 크로스 어텐션 융합 디코더를 결합한 경량 3D 트랜스포머 모델이다. 전체 파라미터는 2.94 M에 불과하면서도 ACDC와 BraTS 데이터셋에서 각각 93.44 %와 85.9 %의 평균 Dice 점수를 달성한다. 추론 시간은 8.35 ms(볼륨당)로, 메모리와 연산 효율성 면에서 임상 현장 적용이 가능하도록 설계되었다.

저자: **저자 정보 제공되지 않음** (논문 본문에 저자 명시가 없습니다.)

RefineFormer3D 경량 3D 의료 영상 분할을 위한 적응형 멀티스케일 트랜스포머
본 논문은 3차원 의료 영상 분할에서 정확도와 연산 효율성 사이의 트레이드오프를 해결하고자 하는 목표 아래, RefineFormer3D라는 새로운 경량 트랜스포머 아키텍처를 제안한다. 서론에서는 기존 U‑Net 기반 CNN 모델이 국소적인 수용 영역 때문에 전역적인 해부학적 컨텍스트를 포착하기 어려운 점을 지적하고, 트랜스포머 기반 모델이 전역 어텐션을 통해 이를 보완하지만 파라미터와 메모리 요구량이 과도해 임상 현장 적용에 제약이 있음을 설명한다. 또한 현재 대부분의 스킵 연결이 정적 연결 방식에 머물러 다중 스케일 정보를 효율적으로 융합하지 못한다는 문제점을 제시한다. 관련 연구 파트에서는 CNN‑기반, 순수 트랜스포머, 하이브리드 CNN‑트랜스포머, 그리고 효율적인 트랜스포머 변형 네 가지 카테고리로 기존 문헌을 정리한다. 특히 nnFormer, SegFormer3D, LeViT‑UNet 등 경량화를 시도한 모델들의 한계(파라미터 과다, 정적 스킵 융합, 제한된 멀티스케일 처리)를 상세히 분석한다. 제안 방법론에서는 인코더와 디코더 두 부분으로 구성된 전체 파이프라인을 상세히 설명한다. 인코더는 (1) GhostConv3D 기반 패치 임베딩, (2) 윈도우 기반 셀프 어텐션과 시프트 윈도우를 이용한 트랜스포머 블록, (3) MixFFN3D 모듈로 이루어진다. GhostConv3D는 프라임 컨볼루션과 깊이별 DWConv3D를 결합해 채널 차원의 중복을 최소화하고, 3D 위치 정보를 보존하는 PosConv와 LayerNorm을 통해 토큰화 전 특징을 정규화한다. 트랜스포머 블록은 윈도우 어텐션을 사용해 메모리 사용량을 제한하면서도, 시프트 윈도우를 통해 인접 윈도우 간의 정보 교류를 가능하게 한다. MixFFN3D는 저랭크 선형 변환과 3D depthwise convolution을 결합해 전통적인 MLP보다 파라미터와 FLOPs를 크게 절감한다. 디코더는 크로스 어텐션 융합 블록을 핵심으로 한다. 각 디코더 단계는 현재 디코더 피처를 쿼리로, 인코더의 해당 스케일 스킵 피처를 키와 밸류로 사용해 어텐션을 수행한다. 이를 통해 디코더는 현재 재구성 단계에서 가장 필요한 스케일 정보를 동적으로 선택한다. 또한 SE‑Attention을 적용해 채널별 중요도를 재조정하고, 마지막 업샘플링 블록에서는 skip 연결 없이 순수 디코더 피처만을 사용해 최종 예측을 만든다. 깊이 감독을 위해 중간 디코더 출력에 보조 헤드를 두어 학습 안정성을 높였다. 실험에서는 ACDC(심장 MRI)와 BraTS(뇌종양 MRI) 두 공개 벤치마크를 사용했다. RefineFormer3D는 파라미터 2.94 M, FLOPs 4.1 G, 추론 시간 8.35 ms(볼륨당)로, 기존 nnFormer(150.5 M)와 SegFormer3D(4.51 M) 대비 파라미터는 20배 이상 적고, Dice 점수는 각각 93.44 %와 85.9 %로 동등하거나 우수한 성능을 보였다. 특히 작은 파라미터 풀이 메모리 사용량을 1.8 GB 이하로 유지해 GPU 메모리 제한이 있는 환경에서도 원활히 동작한다. Ablation study에서는 (1) GhostConv3D를 일반 Conv3D로 교체했을 때 파라미터가 1.9배 증가하고 Dice가 1.2 % 감소, (2) MixFFN3D를 표준 MLP로 교체했을 때 연산량이 2.3배 늘고 추론 시간이 1.6배 증가, (3) 크로스 어텐션 대신 단순 concat을 사용했을 때 다중 스케일 정보 활용도가 떨어져 Dice가 1.5 % 낮아지는 결과를 제시한다. 또한 윈도우 크기와 시프트 전략을 변형한 실험을 통해 최적의 윈도우 크기(7×7×7)와 두 단계 시프트가 가장 좋은 성능‑효율 균형을 제공함을 확인했다. 결론적으로, RefineFormer3D는 (i) 2.94 M 파라미터 이하의 초경량 설계, (ii) 어댑티브 크로스 어텐션 기반 멀티스케일 스킵 융합, (iii) GhostConv3D와 MixFFN3D를 통한 연산·메모리 효율성, (iv) ACDC와 BraTS에서 입증된 SOTA 수준의 정확도, (v) 실시간 추론 가능성을 모두 만족한다. 이러한 특성은 제한된 하드웨어를 사용하는 병원 현장이나 모바일 의료 기기 등에 바로 적용할 수 있는 실용적인 3D 의료 영상 분할 솔루션으로 평가된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기