깊이 강화 YOLO SAM2 기반 철도 선로 배럴 부족 자동 검출
본 논문은 RGB‑D 데이터를 활용해 YOLOv8과 Segment Anything Model 2(SAM2)를 결합한 깊이 강화 파이프라인을 제안한다. 실시간 객체 검출을 담당하는 YOLOv8은 RGB만을 사용했을 때 충분한 정확도는 보이지만, 부족한 배럴을 놓치는 재현율이 낮았다. 이를 보완하기 위해 실시간 깊이 왜곡 보정(다항식 모델, RANSAC, 시간적 EMA)과 회전 경계 상자(RBB) 기반 샘플링을 적용하고, 보정된 깊이 정보를 이용해…
저자: Shiyu Liu, Dylan Lester, Husnu Narman
본 논문은 철도 선로 유지보수에서 핵심적인 배럴(자갈) 부족을 자동으로 탐지하기 위한 새로운 RGB‑D 기반 딥러닝 파이프라인을 제안한다. 기존 연구들은 주로 RGB 영상만을 이용해 YOLO 계열 모델로 배럴 영역을 검출했으며, 이는 실시간 처리와 높은 정밀도를 제공하지만, 깊이 정보를 활용하지 못해 실제 배럴 양을 판단하는 데 한계가 있었다. 특히, 배럴이 충분히 채워져 있지 않은 경우에도 색상·텍스처만으로는 구분이 어려워 재현율이 크게 저하되는 문제가 있었다.
이를 해결하기 위해 저자들은 네 가지 핵심 모듈로 구성된 시스템을 설계하였다. 첫 번째 모듈은 YOLOv8을 이용해 RGB 프레임에서 배럴 후보 영역을 빠르게 검출한다. 검출된 영역은 이미지 중앙 70% 내에 제한함으로써 레일 외부에서 발생할 수 있는 오탐지를 억제한다. 두 번째 모듈은 Segment Anything Model 2(SAM2)를 활용해 각 YOLO 후보 영역을 정밀 마스크로 재구성하고, 최소 면적 회전 사각형(Rotated Bounding Box, RBB)을 추출한다. RBB는 실제 레일과 침목의 기울기에 맞춰 정렬되므로, 이후 깊이 샘플링 시 기하학적 일관성을 확보한다.
세 번째 모듈은 RealSense D435가 제공하는 원시 깊이 맵의 왜곡을 보정한다. 저자들은 침목 표면이 거의 평면이라는 물리적 사실을 이용해, 침목 위에서 추출한 깊이 샘플을 기반으로 2차 다항식(θ1~θ6) 모델을 구축한다. 샘플 추출 단계에서는 인접 RBB 사이의 중간선을 따라 침목 표면을 정확히 잡아내며, 프레임 경계에선 수평 오프셋 라인을 사용한다. 추출된 깊이값은 Median Absolute Deviation(MAD) 필터링으로 이상치를 제거하고, RANSAC 절차를 통해 외곡점에 강인한 다항식 파라미터를 추정한다. 추정된 파라미터는 Exponential Moving Average(EMA)로 시간적으로 스무딩되어 프레임 간 급격한 변동을 최소화한다. 보정 과정에서는 공간적 변동(θ1~θ5)만을 제거하고 전역 오프셋(θ6)은 유지한다. 이는 배럴‑침목 높이 차이만을 판단하면 되므로 절대 깊이값 자체는 필요 없기 때문이다.
네 번째 모듈은 보정된 깊이 데이터를 이용해 배럴 부족을 판단한다. 각 RBB 내부에 대해 두 가지 기하학적 기준을 적용한다. 첫 번째는 전체 RBB 영역의 평균 깊이 잔차를 계산해, 기준값을 초과하면 부족으로 라벨링한다. 두 번째는 마스크 내부에서 침목과 배럴 사이에 발생하는 국부적인 깊이 갭(gap) 영역을 탐지하고, 일정 비율 이상이 존재하면 부족으로 판단한다. 두 기준을 조합함으로써 과도한 양성(충분) 예측을 억제하면서도 미세한 부족을 포착한다.
실험은 현장에서 수집한 상향형(top‑down) RGB‑D 데이터셋을 사용했으며, 평가 지표는 정밀도, 재현율, F1‑score이다. RGB‑only YOLOv8은 정밀도 0.99에 비해 재현율 0.49로 안전성에 큰 결함을 보였다. 반면, 깊이 보정과 RBB 기반 샘플링을 적용한 YOLO‑SAM2 파이프라인은 재현율을 0.80까지 끌어올리고, F1‑score를 0.81 이상으로 향상시켰다. 특히, 회전 경계 상자를 사용했을 때 깊이 샘플이 침목에 정확히 정렬되어 왜곡이 최소화되었으며, 이는 실제 현장 적용 시 안전 임계값을 만족하는 검출 성능을 제공한다.
논문의 주요 기여는 다음과 같다. (1) YOLO와 SAM2를 결합한 RGB‑D 파이프라인을 제시하여 실시간 검출과 정밀 마스크를 동시에 달성하였다. (2) 침목‑정렬 다항식 보정과 RANSAC‑EMA 기반 시간적 안정화를 통해 RealSense 깊이 센서의 공간적 왜곡을 효과적으로 제거하였다. (3) 두 단계의 기하학적 기준을 활용한 이중 분류기로 배럴 부족을 높은 정밀도와 재현율로 식별하였다. 향후 연구에서는 다중 센서 융합, 복잡한 지형에 대한 보정 모델 확장, 그리고 현장 배포를 위한 경량화 모델 최적화가 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기