멀티스펙트럼 이미지와 딥러닝을 활용한 실시간 목표 분류 최적화
본 논문은 25채널 VIS‑NIR 스냅샷 센서와 RGB 카메라를 결합한 데이터셋을 구축하고, 이를 기반으로 경량화된 컨볼루션 신경망을 설계해 도시 감시 환경에서 픽셀 수준의 목표 분류 정확도를 99.1%까지 끌어올렸다. 특히 30장의 라벨링된 이미지만으로도 높은 성능을 달성했으며, 멀티스펙트럼 정보를 활용해 연산량을 3배 절감할 수 있음을 입증하였다.
저자: Lukas Cavigelli, Dominic Bernath, Michele Magno
본 논문은 도시 감시 시나리오에서 실시간 목표 분류를 구현하기 위해 멀티스펙트럼 영상과 딥러닝을 결합한 시스템을 제안한다. 연구는 크게 네 부분으로 구성된다. 첫 번째는 데이터 수집 및 전처리 단계이다. 저해상도 25채널 VIS‑NIR 스냅샷 센서와 고해상도 RGB 카메라를 동일한 촬영 위치에 고정하고, 두 카메라의 시야와 해상도를 맞추기 위해 렌즈 초점과 위치를 조정하였다. 멀티스펙트럼 센서는 600 nm~975 nm 구간을 25개의 균등 밴드로 샘플링하며, 170 fps까지 스트리밍이 가능하다. 촬영된 멀티스펙트럼 데이터는 2D 레이아웃에서 3‑D 큐브(가로 × 세로 × 25) 형태로 변환된다. 이후 로컬 가중 평균 변환(LWMT)과 12개의 최근접 점을 이용한 2차 다항식 보정을 통해 RGB 이미지와 정밀하게 정렬하였다. 정렬된 두 이미지 데이터를 28채널(3 RGB + 25 멀티스펙트럼) 형태로 스택하고, 양쪽 센서가 모두 커버하는 영역(≈ 640 × 480 픽셀)만을 크롭하여 최종 데이터셋을 구성한다.
두 번째는 라벨링 과정이다. 전체 40장의 이미지에 대해 8개의 의미 클래스(차량/트럭, 하늘, 건물, 도로/자갈, 나무/관목, 트램, 물, 먼 배경)를 정의하고, SLIC 초픽셀 알고리즘을 활용해 이미지 전체를 초픽셀 단위로 분할하였다. 초픽셀 경계 내에서 동일 클래스를 할당함으로써 라벨링 속도를 크게 향상시켰으며, 정적 배경을 이용해 연속된 이미지 간 라벨을 재사용하였다. 라벨링은 인간 주관에 의존하지만, 애매한 픽셀(예: 보행자)은 주변 클래스와 동일하게 처리하였다. 클래스 분포는 매우 불균형했으며, 차량과 트램 같은 소수 클래스가 전체 픽셀의 2% 미만을 차지한다.
세 번째는 네트워크 설계와 학습이다. 먼저 5‑layer 전통적인 다층 퍼셉트론(MLP)을 구현해 각 픽셀을 독립적으로 분류하였다. 입력은 RGB‑only(3채널)와 멀티스펙트럼+RGB(28채널) 두 가지 형태로 제공되었으며, 각 레이어는 32, 128, 512, 64, 10개의 뉴런으로 구성되고 ReLU와 배치 정규화를 적용했다. 이 모델은 연산량이 적어 임베디드 환경에서 빠르게 실행될 수 있지만, 주변 픽셀 정보를 활용하지 못해 정확도가 제한적이었다.
본 논문의 핵심은 세 가지 컨볼루션 신경망(ConvNet) 아키텍처이다. 첫 번째는 기존 Stanford Backgrounds 데이터셋에 최적화된 FCN‑8s 구조를 그대로 사용하되, 입력 레이어를 28채널로 확장하였다. 두 번째는 인코더‑디코더 형태의 U‑Net 변형으로, 깊이‑폭을 조절한 합성곱 층과 최대 풀링을 통해 특징을 추출하고, 스킵 연결을 통해 고해상도 정보를 복원한다. 세 번째는 최신 이미지 인식 트렌드를 반영한 DeepLab‑v3+ 스타일의 모델로, Atrous Spatial Pyramid Pooling(ASPP)와 깊이별 컨볼루션을 결합해 멀티스케일 정보를 효과적으로 통합한다. 모든 ConvNet은 초기 1×1 합성곱으로 채널 차원을 압축하고, 이후 3×3, 5×5 필터를 조합해 공간적 패턴을 학습한다. 풀링은 두 번 적용해 해상도를 ¼로 낮추면서도 중요한 텍스처를 보존하고, 디코더에서는 선형 업샘플링과 스킵 연결을 통해 최종 8채널 출력(클래스 확률)을 생성한다.
학습은 30장의 라벨링된 이미지(≈ 30 k 픽셀)만을 사용했으며, 데이터 증강(회전, 수평 뒤집기, 색상 변형)과 조기 종료를 적용해 과적합을 방지하였다. 옵티마이저는 Adam을 사용했고, 손실 함수는 크로스 엔트로피였다. 테스트는 남은 10장의 이미지에서 수행했으며, 주요 평가지표는 픽셀 정확도와 클래스별 IoU였다.
네 번째는 실험 결과와 분석이다. 멀티스펙트럼+RGB 입력을 사용한 ConvNet은 전체 픽셀 정확도 99.1%를 달성했으며, 특히 차량 클래스에서 75% 이상의 픽셀 정확도를 기록했다. 이는 RGB‑only 모델 대비 약 3배 적은 FLOPs(연산량)으로 동일 수준의 성능을 얻은 것으로, 연산 효율성이 크게 향상되었음을 의미한다. MLP 기반 전처리 모델은 연산량이 가장 적지만 정확도는 85% 수준에 머물렀다. 클래스 불균형 문제에도 불구하고, 멀티스펙트럼 채널이 물질 구분에 기여해 희소 클래스(차량, 트램)의 경계 인식이 개선되었다. 오류는 주로 객체 경계 부근에서 발생했으며, 이는 초픽셀 라벨링의 한계와 해상도 차이에서 비롯된 것으로 보인다.
마지막으로 논문은 실시간 임베디드 구현 가능성을 논의한다. 제안된 네트워크는 NVIDIA Tegra K1과 같은 모바일 GPU에서 30 fps 이상의 처리 속도를 보였으며, 전력 소모는 5 W 이하로 유지되었다. 이는 현장 감시 카메라가 클라우드 서버와의 대용량 데이터 전송 없이도 실시간 위협 탐지를 수행할 수 있음을 시사한다. 향후 연구에서는 야간 및 악천후 조건에서의 멀티스펙트럼 성능 평가, 추가적인 열·SWIR 밴드 통합, 양자화 및 프루닝을 통한 모델 경량화, 그리고 실제 스마트 카메라 프로토타입 구현을 목표로 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기