고정밀 지도와 초고속 ConvNet으로 보행자·자전거 이용자 궤적 예측

본 논문은 고해상도 지도와 주변 상황을 BEV(위에서 바라본) 이미지로 래스터화한 뒤, 경량화된 FastMobileNet(FMNet) 구조와 공간적 특성 융합 방식을 적용해 보행자와 자전거 이용자의 미래 위치를 실시간으로 예측한다. 다양한 래스터화 옵션에 대한 Ablation 실험을 통해 최적 설정을 도출하고, 기존 MobileNet‑v2 대비 2배 이상 빠른 추론 속도와 동일하거나 향상된 정확도를 달성하였다.

저자: Fang-Chieh Chou, Tsung-Han Lin, Henggang Cui

고정밀 지도와 초고속 ConvNet으로 보행자·자전거 이용자 궤적 예측
본 논문은 자율주행 차량(AV) 시스템에서 가장 위험도가 높은 취약 도로 이용자(VRU), 즉 보행자와 자전거 이용자의 미래 움직임을 정확하고 실시간으로 예측하기 위한 새로운 프레임워크를 제시한다. 연구는 크게 네 가지 단계로 구성된다. 1. **문제 정의 및 배경** 기존의 VRU 궤적 예측 방법은 물리 기반 상수 속도 모델, 사회적 힘 모델, 그리고 LSTM 기반 시계열 모델 등이 있다. 이러한 방법들은 장면 맥락(도로 구조, 교차로, 횡단보도 등)을 충분히 반영하지 못하거나, 연산량이 많아 실시간 적용이 어려운 한계를 가진다. 특히 도심의 복잡한 환경에서는 정적·동적 요소가 복합적으로 작용하므로, 맥락 정보를 효과적으로 활용하는 것이 핵심이다. 2. **래스터화(Rasterization) 설계** 고해상도(HD) 지도와 트래킹 모듈이 제공하는 상태 추정 S를 결합해, 각 VRU를 중심으로 한 BEV(위에서 바라본) 이미지를 생성한다. 래스터 이미지에는 도로, 차선, 횡단보도, 신호등, 주변 차량·보행자 등 다양한 벡터 레이어를 다중 채널로 인코딩한다. 논문에서는 여러 래스터화 파라미터(영역 크기, 해상도, 채널 구분 방식 등)를 조합해 Ablation 실험을 수행했으며, 최적 설정은 30 m×30 m 영역을 0.1 m 해상도로 표현하고, 도로·차선·횡단보도를 각각 별도 채널로 구분하는 방식이었다. 이 설정은 정적 맥락을 가장 풍부하게 전달해 ADE(평균 변위 오차)를 최소화했다. 3. **FastMobileNet(FMNet) 기반 CNN 설계** 기존 MobileNet‑v2(MNv2)는 1×1 컨볼루션에 FLOPs와 메모리 접근(MAC) 비용이 집중돼 실시간 추론에 비효율적이다. FMNet은 인버티드 병목 구조를 재배치해, 업샘플 단계의 연산을 병목 단계로 이동시켜 채널 수를 k배(논문에서는 k=6) 감소시킨다. 주요 변경점은 다음과 같다. - 업샘플 단계에서 ReLU만 남기고, BatchNorm을 제거해 연산량을 절감. - 병목 단계는 선형 연산으로 유지하고, 마지막에 BiasAdd만 적용해 비선형성을 최소화. - stride‑2 블록을 도입해 특성 맵 크기를 효율적으로 축소, 전체 레이어 수는 MNv2‑0.5와 동일하지만 연산량은 약 45 % 감소. 실험 결과, FMNet은 GPU 상에서 평균 9 ms(≈110 fps)의 추론 지연을 보이며, MNv2 대비 2배 이상 빠른 속도를 달성했다. 정확도는 ADE 기준으로 기존 모델과 동등하거나 약간 향상되었다. 4. **보조 특성(Auxiliary Features)과의 공간적 융합** 트래킹 모듈이 제공하는 속도, 가속도, 헤딩, 헤딩 변화율 등 1D 보조 특성을 단순히 플래튼 후 FC 레이어에 연결하는 기존 방식은 연산 비용이 크고, 공간적 맥락을 반영하지 못한다. 논문에서는 1D 특성을 FC‑reshape‑1×1 Conv 로 3D 특성 맵(채널 × 높이 × 폭)으로 변환한 뒤, FMNet block 3의 출력과 element‑wise addition 으로 융합한다. 이 방식은 각 공간 위치마다 보조 특성이 다르게 적용될 수 있게 하여, 특히 교차로에서의 의도 전환을 더 정확히 포착한다. Ablation 실험에서 이 공간 융합이 기존 concat 방식 대비 ADE를 3~5 % 감소시켰으며, 전체 파이프라인 지연시간도 1 ms 이하로 단축했다. 5. **학습 및 평가** - **데이터**: 대규모 도시 주행 데이터셋(수십만 트랙, 다양한 날씨·시간대)에서 보행자·자전거 궤적을 추출, 각 트랙에 HD 지도와 트래킹 상태를 매핑. - **손실 함수**: 평균 변위 오차(ADE)를 최소화하도록 설계, 미래 3 s(30 step)까지의 x, y 좌표를 예측. - **베이스라인**: 기존 MNv2 기반 모델, LSTM‑social pooling, SoPhie 등과 비교. - **결과**: FMNet + 공간 융합 모델은 ADE 0.45 m(보행자)·0.62 m(자전거)로, 기존 MNv2 대비 10 % 개선, LSTM 기반 모델 대비 18 % 개선. 추론 지연은 9 ms(30 fps)로, 실시간 적용에 충분히 적합. 6. **실제 차량 탑재 테스트** Uber Advanced Technologies Group의 자율주행 차량에 FMNet 모델을 탑재해 도심 복잡 구역에서 실시간 테스트를 수행하였다. 실험에서는 1초 이내에 30 fps 이상의 추론을 유지했으며, 위험 상황(예: 보행자가 횡단보도에 진입)에서 기존 모델보다 0.2 s 빠르게 위험을 감지하고 적절한 제어 명령을 생성했다. 7. **결론 및 향후 연구** 고해상도 지도와 효율적인 CNN 구조를 결합한 본 접근법은 VRU 예측에 필수적인 정적·동적 맥락을 풍부히 제공하면서, 실시간 추론 요구를 충족한다. 향후 연구에서는 (1) 멀티모달 센서(라이다, 레이더)와의 융합, (2) 장거리 예측(5 s 이상) 및 의도 인식, (3) 자동화된 래스터화 파라미터 최적화 등을 통해 시스템을 확장할 계획이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기