스케일러블하고 견고한 엔드투엔드 주행 플래너를 위한 핵심 설계 요인

본 연구는 엔드투엔드 자율주행(E2E‑AD) 시스템이 오픈루프 데이터셋에서 높은 성능을 보이지만, 실제 닫힌 루프 시뮬레이션에서는 설계상의 결함으로 인해 성능이 급격히 저하되는 현상을 지적한다. 이를 해결하기 위해 저자들은 세 가지 주요 설계 패턴을 선정하고, 각각이 닫힌 루프 주행에 미치는 영향을 체계적으로 재평가한다. 첫 번째 패턴은 고해상도 BEV(Bird’s‑Eye‑View) 인식 표현이다. 기존 연구에서는 BEV 해상도를 높이면 객체 검출·지도 예측 등 인식 과제가 개선된다고 주장했지만, 플래너가 직접 접근해야 하는 공간이 커지면서 인과 혼동과 과적합 위험이 증가한다는 점을 발견한다. 이를 완화하기 위해 “spatial bottleneck”이라 부르는 토크나이저 레이어를 도입, BEV 피처를 마스킹하고 패치화해 차원을 압축한다. 이 과정에서 중요한 것은 플래너가 필요로 하는 핵심 공간 정보만을 남기고 불필요한 영역을 차단함으로써, 고해상도 인식 이점을 유지하면서도 플래너의 학습 안정성을 확보한다는 점이다. 두 번째 패턴은 궤적 분리 표현이다. 기존의 시간 연속적인 웨이포인트 방식은 횡·종 방향 제어를 하나의 벡터에 결합해 학습이 모호해지는 문제를 안고 있었다. 저자들은 경로(횡방향)와 목표 속도(종방향)를 별도 예측하도록 설계하고, 이를 PID 제어기에 직접 연결한다. 이렇게 하면 제어 파라미터를 독립적으로 최적화할 수 있어, 급격한 차선 변경이나 정지·가속 상황에서도 안정적인 제어가 가능해진다. 세 번째 패턴은 확산 기반 생성 플래너이다. 포인트 추정 방식은 단일 궤적을 출력하므로 복잡한 교차로나 다중 차선 상황에서 멀티모달 행동을 표현하지 못한다. 확산 모델은 조건부 확률 분포를 학습해 다양한 가능한 궤적을 샘플링한다. 저자는 DDIM(Deterministic Diffusion Implicit Models) 스케줄을 적용해 샘플링 단계 수를 제한, 실시간 요구를 충족시키면서도 멀티모달성을 유지한다. 또한, 플래너 입력인 “planning queries”를 노이즈가 추가된 GT 궤적으로 초기화해 학습 효율을 높인다. 실험에서는 ParaDrive 기반의 분석 프레임워크 위에 위 세 패턴을 각각 단독 및 조합하여 평가한다. 고해상도 BEV만 사용하면 성공률이 55% 수준에 머물지만, 공간 병목을 적용하면 62%로 상승한다. 궤적 분리만 적용해도 66%에 도달하고, 확산 플래너만 적용하면 68%를 기록한다. 세 가지를 모두 결합한 BevAD는 72.7% 성공률을 달성하며, 특히 데이터 양을 5배, 10배 확대했을 때 성공률이 각각 4%p, 8%p 상승하는 등 데이터 스케일링에 강한 특성을 보인다. 베이스라인인 UniAD와 비교했을 때, BevAD는 동일한 카메라 입력만 사용하면서도 더 가벼운 모델(파라미터 수 30% 감소)으로 높은 성능을 얻는다. 마지막으로 저자들은 코드와 모델을 공개함으로써 재현성을 확보하고, 향후 연구자들이 설계 선택의 상호작용을 더 깊이 탐구할 수 있는 기반을 제공한다. 전체적으로 이 논문은 인식‑계획 인터페이스 설계가 닫힌 루프 주행의 견고성에 결정적인 영향을 미치며, 고해상도 인식 피처의 압축, 궤적 분리, 그리고 확산 기반 생성 플래너의 결합이 스케일러블하고 견고한 E2E‑AD 시스템을 구현하는 핵심 열쇠임을 입증한다.

스케일러블하고 견고한 엔드투엔드 주행 플래너를 위한 핵심 설계 요인

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기