신경망 없는 비디오 기반 신장 내시경 탐색 자동 평가 시스템
본 논문은 신장 모형(phantom)에서의 요관경 탐색을 영상만으로 자동 위치추정하고, 각 칼리시(신우) 방문 여부를 판단하는 프레임워크를 제안한다. 느리게 수행한 전문가의 레퍼런스 영상을 이용해 3D 포인트클라우드와 CT 모델을 정합한 뒤, 일반 속도로 촬영한 훈련생 영상을 실시간에 가깝게 로컬라이즈한다. 15개의 훈련 영상에서 74개 칼리시 중 69개를 정확히 분류했으며, 카메라 포즈 오차는 평균 4 mm 이하, 전체 처리 시간은 약 10분…
저자: Fangjie Li, Nicholas Kavoussi, Charan Mohan
본 논문은 신장 내시경(요관경) 훈련에서 발생하는 교육적·경제적 제약을 해소하고자, 영상 기반 자동 평가 프레임워크를 제안한다. 기존 훈련은 OR에서 전문가와 일대일로 진행되며, 전자기(EM) 트래킹 같은 추가 장비가 필요해 비용과 복잡성이 높다. 저자들은 이러한 문제를 해결하기 위해 두 단계 접근법을 설계하였다.
첫 번째 단계에서는 전문가가 동일 신장 모형(실리콘 기반, 환자 CT를 기반으로 제작)에서 느리고 정밀하게 탐색한 두 개의 영상을 수집한다. 이 영상들은 고품질이며 블러가 적어 SfM 파이프라인(hloc 툴킷, NetVLAD 이미지 검색, ALIKED 피처 검출, LightGlue 매칭, COLMAP 3D 재구성)을 적용해 3D 포인트클라우드와 각 프레임의 카메라 포즈를 복원한다. 복원된 포인트클라우드는 CT 스캔으로부터 얻은 해부학적 세그멘테이션과 ICP(Iterative Closest Point) 정합을 통해 실제 해부학 좌표계에 매핑된다. 이 과정에서 각 칼리시(신우) 영역을 CT 메쉬 상에 수동으로 라벨링한다. 결과적으로, 레퍼런스 모델은 (a) 3D 포인트클라우드, (b) 각 포인트에 대응하는 카메라 포즈, (c) CT 기반 해부학 메쉬, (d) 칼리시 라벨이라는 네 가지 정보를 포함한다.
두 번째 단계는 훈련생이 일반 속도로 수행한 탐색 영상을 자동으로 평가하는 과정이다. 훈련 영상은 블러와 급격한 움직임으로 인해 직접 SfM 재구성이 어려우므로, 레퍼런스 모델을 기준으로 로컬라이즈한다. 구체적으로, 각 훈련 프레임에 대해 NetVLAD를 이용해 레퍼런스 이미지 중 코비저블(공통 시야) 후보를 찾고, ALIKED와 LightGlue를 사용해 로컬 피처 매칭을 수행한다. RANSAC 기반 에센셜 매트릭스 추정으로 외부 파라미터(회전·이동)를 계산하고, 매칭 품질(인라이어 비율) 기준으로 저품질 매치를 제거한다. 이후, 시공간 연속성을 고려해 (1) 메쉬 외부에 위치한 프레임 제거, (2) 이전 로컬라이즈된 프레임과의 거리·시간 차이를 기반으로 동적 거리 임계값을 적용해 부정확한 포즈를 필터링한다.
정확히 로컬라이즈된 프레임마다 카메라 내시경 파라미터와 결합해 CT 메쉬를 렌더링하고, 레이캐스팅을 통해 현재 시점에서 보이는 메쉬 정점을 식별한다. 이렇게 얻은 시야 정점들을 전체 영상에 걸쳐 누적하면, 각 칼리시 영역에 대해 “방문 점수”(보인 정점 비율)를 계산할 수 있다. 5‑fold 교차검증을 통해 방문 점수의 임계값(VS_thd)을 설정하고, 이 값을 초과하면 해당 칼리시를 ‘방문함’으로, 미달이면 ‘미방문’으로 라벨링한다.
실험은 두 차례에 걸쳐 수행되었다. 첫 번째 실험에서는 4개의 신장 모형에 대해 전문가가 두 번씩 느린 탐색을 수행하고, 한 번은 EM 트래킹을 병행해 레퍼런스 포즈의 정확성을 검증하였다. 레퍼런스 포인트클라우드와 CT 메쉬 사이의 평균 유클리드 거리(≈1 mm), 99 % Hausdorff 거리(≈5–6 mm), 포인트 커버리지(≈43–66 %), 재투영 오류(≈1.1 px) 등을 보고하였다. EM 트래킹과 비교한 SfM 포즈 오차는 1 mm 이하로, 레퍼런스 모델이 충분히 정확함을 확인했다.
두 번째 실험에서는 4명의 훈련생이 각 모형을 탐색한 15개의 일반 속도 영상을 적용하였다. EM 트래킹은 사용하지 않았으며, 대신 위에서 설명한 로컬라이제이션 파이프라인을 적용했다. 결과적으로, 74개의 칼리시 중 69개를 정확히 방문/미방문으로 분류했으며(정밀도 ≈ 93 %), 카메라 포즈 평균 오차는 3.8 mm 이하였다. 전체 파이프라인은 RTX 4090 GPU가 장착된 PC에서 평균 10분 내에 처리되었다(레퍼런스 모델 생성 포함).
본 시스템의 주요 장점은 (1) 추가 하드웨어 없이 영상만으로 정확한 위치추정이 가능하고, (2) 레퍼런스 모델을 한 번만 구축하면 동일 모형에 대해 무제한 훈련을 지원한다는 점이다. 이는 훈련 비용 절감과 교육 기회의 확대에 크게 기여한다. 한편, 현재 시스템은 동일 모형에만 적용 가능하고, 레퍼런스 모델 구축에 전문가의 느린 탐색이 필요하다는 제약이 있다. 또한, EM 트래킹을 통한 정량적 검증이 제한적이며, 실제 임상 환경에서의 일반화 검증이 부족하다. 향후 연구에서는 다양한 해부학 변이를 포함한 다중 레퍼런스 모델 구축, 실시간 피드백 인터페이스 개발, 그리고 임상 적용을 위한 대규모 사용자 연구가 필요하다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기