모바일태아CLIP 선택적 반발 지식 증류 기반 초경량 태아 초음파 AI

본 논문은 304M 파라미터를 가진 FetalCLIP 교사를 11.4M 파라미터의 FastViT 기반 모바일 학생 모델로 압축한다. 기존 지식 증류가 26배 규모 차이에서 성능 저하를 보이는 문제를, 대각선(정답) 항은 유지하고 비대각선(오답) 항을 점진적으로 음수 가중치로 전환하는 ‘선택적 반발 지식 증류(Selective Repulsive KD)’ 기법으로 해결한다. 결과적으로 모바일 모델이 교사보다 5% 이상 높은 HC18 바이오메트리 정…

저자: Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub

모바일태아CLIP 선택적 반발 지식 증류 기반 초경량 태아 초음파 AI
본 논문은 저자원이 제한된 산전 진료 현장에서 초음파 기반 AI 지원을 실현하기 위해, 대규모 비전‑언어 모델(FetalCLIP)을 모바일 친화적인 경량 모델(MobileFetalCLIP)로 압축하는 새로운 지식 증류 기법을 제안한다. 기존 CLIP‑계열 모델은 이미지‑텍스트 쌍을 대조 학습해 강력한 제로샷 표현을 얻지만, ViT‑L/14와 같은 대형 백본은 300 M 이상의 파라미터를 요구해 핸드헬드 초음파 기기에 적용하기 어렵다. 특히 교사와 학생 사이에 26배 정도의 파라미터 격차가 존재하면, 전통적인 KD(soft target 매칭)는 학생이 교사의 비대각선(클래스 간 혼동) 구조를 그대로 모방하려 하면서 용량 초과 현상이 발생한다. 이에 저자들은 ‘선택적 반발 지식 증류(Selective Repulsive KD)’라는 새로운 프레임워크를 고안한다. 먼저 CLIP‑KD와 동일하게 이미지‑텍스트 N × N 유사도 로그잇 행렬을 사용한다. 이 행렬을 대각선(정답 매칭)과 비대각선(오답 유사도)으로 분리하고, 대각선 항은 학습 전 과정 내내 가중치 1.0을 유지해 정합성을 보장한다. 비대각선 항은 초기에는 양의 가중치 β₀(>1)로 교사의 ‘다크 노하우’를 흡수하게 하며, 선형 스케줄에 따라 점차 감소시켜 최종적으로 음수(r < 0)로 전환한다. β(t) = β₀·(1 − t/S·(1 − r)) 형태의 스케줄을 적용해, 학습 초반에는 표준 KD와 동일하게 교사의 비대각선 구조를 학습하고, 중반에 KD 가중치가 0에 도달하면 CLIP 손실만 남아 이미지‑텍스트 정합을 강화한다. 이후 β가 음수가 되면 KD 손실의 부호가 반전돼 학생은 교사의 비대각선 패턴과 거리를 두게 된다. 즉, 교사가 만든 클래스 간 혼동을 ‘반발’시켜, 학생이 자체적인 지역‑텍스처와 다중 스케일 특징을 활용해 더 명확한 경계와 높은 확신도를 학습하도록 유도한다. 학생 모델는 FastViT 기반 이미지 인코더(11.4 M 파라미터)와 4‑layer 텍스트 트랜스포머(75 M 파라미터)로 구성돼 총 86.4 M 파라미터를 차지한다. 교사인 FetalCLIP은 ViT‑L/14(304 M 파라미터)와 동일한 텍스트 백본을 사용한다. 두 모델은 동일한 246 k 이미지‑캡션 데이터셋을 20 epoch, 배치 1 024, τ_KD = 5 로 학습한다. β₀는 1.5~2.0 범위에서 탐색했으며, 최적값은 1.8, r = ‑0.8 로 설정해 약 11 epoch 시점에 부호 전환이 일어나도록 설계했다. 성능 평가에서는 두 공개 베치마크를 사용했다. 첫 번째는 Planes DB(5‑plane 분류, 3‑class 뇌 서브플레인)이며, 두 번째는 HC18(머리 둘레 바이오메트리)이다. MobileFetalCLIP은 Zero‑shot HC18 바이오메트리 정확도 88.6 %를 기록해 교사(83.5 %)보다 5.1 %p 높은 성능을 보였으며, 뇌 서브플레인 F1 점수는 0.784(교사 0.702)로 8.2 %p 향상되었다. 5‑plane 분류에서는 0.946(교사 0.973)으로 약간의 손실이 있었지만, 파라미터 대비 효율성은 크게 개선되었다. Linear probing 실험에서는 교사의 다운스트림 성능의 97‑98 %를 유지했으며, 이는 학생이 핵심 특징을 충분히 보존했음을 의미한다. 내부 메커니즘 분석에서는 Embedding Geometry와 Logit Distribution을 시각화해, Repulsive KD 적용 후 클래스 중심 간 거리가 평균 12 % 증가하고, 로그잇 엔트로피가 0.21 감소해 보다 확신적인 예측을 수행함을 확인했다. 또한, 비대각선 항을 완전히 제거하거나 r ≥ 0 로 설정하면 성능이 급격히 저하되는 등, 선택적 반발이 핵심 역할을 함을 입증했다. 실시간 추론 측면에서 iPhone 16 Pro(Apple A17)에서 1.6 ms(≈625 FPS)의 추론 시간을 기록했으며, 메모리 사용량은 200 MB 이하로 제한돼 실제 핸드헬드 초음파 기기에 바로 배포 가능하다. 코드, 모델, 모바일 앱은 모두 GitHub(https://github.com/numanai/MobileFetalCLIP)에서 공개돼 재현성과 확장성을 보장한다. 결론적으로, 본 연구는 대규모 VLM을 저자원 모바일 환경에 효과적으로 전이시키는 새로운 KD 패러다임을 제시한다. 선택적 반발 지식 증류는 교사의 비대각선 혼동 구조를 ‘반발’시켜 학생이 자체적인 아키텍처 특성을 최대한 활용하도록 유도함으로써, 파라미터 26배 감소에도 불구하고 교사를 능가하는 제로샷 성능을 달성한다. 이는 저자원 산전 진료 현장에서 실시간 AI 지원을 가능하게 하여, 초음파 전문가가 부족한 지역에서도 태아 건강 모니터링을 크게 향상시킬 잠재력을 가진다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기