도시 교통 영상에서 자율 셔틀 탐지를 위한 적응형 잔여 컨텍스트

본 논문은 급격히 확대되는 자율 주행 및 공유 모빌리티 환경에서 새로운 차량 종류, 특히 도시 교통에 투입되는 자율 셔틀을 기존 영상 기반 교통 모니터링 시스템에 통합하는 문제를 다룬다. 기존의 객체 탐지 모델은 사전 학습된 대규모 데이터셋(COCO 등)을 기반으로 하지만, 새로운 클래스가 추가될 경우 일반적으로 파인튜닝을 수행한다. 파인튜닝은 새로운 클래스에 대한 성능을 높이는 반면, 기존 클래스에 대한 파라미터를 업데이트하면서 ‘재앙적 망각(catastrophic forgetting)’ 현상이 발생한다. 이는 교통 안전과 같은 분야에서 기존 상황 인식이 손상될 위험을 초래한다. 이에 저자들은 ‘적응형 잔여 컨텍스트(Adaptive Residual Context, ARC)’라는 새로운 아키텍처를 제안한다. ARC는 YOLO11을 기반으로 하며, 기존 탐지 헤드를 두 개의 병렬 브랜치로 분리한다. 첫 번째 브랜치는 사전 학습된 가중치를 그대로 동결한 ‘고정 컨텍스트 브랜치’로, 원본 COCO 클래스에 대한 풍부한 의미 정보를 유지한다. 두 번째 브랜치는 새로운 목표 클래스(자율 셔틀)를 학습하기 위한 ‘전용 브랜치’이며, 파라미터가 자유롭게 업데이트된다. 두 브랜치를 연결하는 핵심 모듈이 ‘컨텍스트‑가이드 브리지(Context‑Guided Bridge)’이다. 컨텍스트‑가이드 브리지는 세 단계로 구성된다. 1) 채널 주의(Channel Attention): 고정 브랜치의 출력 피처 X_ctx에 대해 전역 평균 풀링과 최대 풀링을 수행하고, 이를 공유 MLP에 통과시켜 채널별 중요도 맵 M_c를 만든다. 이 맵은 X_ctx와 원소곱을 통해 채널 차원에서 중요한 정보를 강조한다. 2) 공간 게이팅(Spatial Gating): 채널 주의가 적용된 피처를 1×1 컨볼루션으로 압축한 뒤 7×7 컨볼루션을 거쳐 공간 마스크 M_s를 생성한다. 이 마스크는 이미지 내에서 관심 영역을 강조하고 배경을 억제한다. 3) 잔여 투영(Residual Projection): 강화된 피처 M_s⊗X'_ctx를 선형 변환 후, 학습 가능한 스칼라 α와 곱해 전용 브랜치의 입력 피처 F_in에 더한다(F_enhanced = F_in + α·Proj(...)). α는 컨텍스트 신호의 영향력을 조절하는 파라미터이며, 학습 과정에서 자동으로 최적화된다. 학습 과정에서는 전체 모델을 파이프라인으로 구성하고, 고정 브랜치는 동결된 채 전용 브랜치만 SGD(lr=0.01, momentum=0.937, weight_decay=5e‑4)로 100 epoch 학습한다. 데이터는 640×640으로 리사이즈하고, mosaic·mixup 등 고급 증강을 적용했으며, 마지막 10 epoch에서는 증강을 비활성화해 미세 조정을 수행한다. 또한, 추론 단계에서 ‘보류 로직(veto logic)’을 도입해 고정 브랜치가 높은 신뢰도로 기존 클래스를 탐지하면 전용 브랜치의 동일 영역 예측을 억제한다. 이는 물리적으로 불가능한 셔틀 위치에 대한 오탐을 크게 감소시킨다. 실험을 위해 저자들은 공개 영상, 유튜브, 그리고 캐나다 몬트리올의 교차로에서 촬영한 영상을 수집해 3,120장의 이미지와 2,500여 개의 셔틀 라벨을 포함하는 맞춤형 데이터셋을 구축했다. 데이터는 중복 프레임을 제거하고, 다양한 조명·시점·날씨 조건을 포함하도록 설계되었다. 평가 지표는 COCO 표준 mAP@0.5와 mAP@0.5:0.95, 그리고 ‘망각 측정(Forgetting Measure)’(원본 COCO 클래스 mAP 감소량)이다. 표 1의 결과는 네 가지 주요 방법을 비교한다. (1) 사전 학습된 YOLO는 셔틀을 전혀 탐지하지 못하지만 기존 클래스에 대한 mAP는 63.7%를 유지한다. (2) 파인튜닝은 셔틀 mAP 47.4%를 달성하지만 COCO mAP가 0%로 급락해 -100%의 망각을 보인다. (3) 정규화 기반(EWC)와 증류 기반(LwF)은 망각을 어느 정도 억제하지만 셔틀 성능이 저하된다. (4) ARC‑YOLO11은 셔틀 mAP 47.3%와 COCO mAP 62.6%를 동시에 달성하며, 망각은 -1.1%에 불과하다. 시각적 비교(Fig. 6)에서도 ARC는 기존 클래스와 셔틀을 명확히 구분하고, 오탐을 최소화한다. 논문의 기여는 다음과 같다. 첫째, 고정된 컨텍스트 브랜치를 활용해 기존 지식을 완전 보존하면서 전용 브랜치를 통해 새로운 클래스를 효율적으로 학습하는 다중 헤드 설계. 둘째, 채널‑주의와 공간‑게이팅을 결합한 적응형 잔여 메커니즘을 도입해 두 피처 스트림 간 불균형을 해소하고, 학습 안정성을 높인 점. 셋째, 실제 도시 교통 환경에서 데이터 효율적으로 새로운 차량 종류를 추가할 수 있음을 실증한 점. 한계로는 현재 정적 이미지에만 적용되며, 시간적 연속성을 활용한 트래킹이나 동적 상황 인식은 포함되지 않는다. 향후 연구에서는 컨텍스트‑가이드 브리지를 시공간 게이팅으로 확장해 움직임 패턴을 활용한 트래킹 및 예측 능력을 강화할 계획이다.

도시 교통 영상에서 자율 셔틀 탐지를 위한 적응형 잔여 컨텍스트

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기