신뢰할 수 있는 임베디드 내비게이션을 위한 NavTrust 벤치마크

신뢰할 수 있는 임베디드 내비게이션을 위한 NavTrust 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

NavTrust는 비전‑언어 내비게이션(VLN)과 객체‑목표 내비게이션(OGN) 에이전트를 RGB·깊이·언어 입력의 다양한 현실적 손상에 노출시켜 신뢰성을 평가하는 최초의 통합 벤치마크이다. 7개의 최신 모델을 테스트한 결과, 현실적인 손상 하에서 성능이 크게 저하됨을 확인했으며, 데이터 증강, 교사‑학생 증류, 어댑터 튜닝, LLM 파인‑튜닝 등 4가지 완화 전략을 비교하였다. 실제 모바일 로봇 실험에서도 일부 전략이 로버스트성을 향상시켰다.

상세 분석

NavTrust는 기존 벤치마크가 깨끗한 환경에서만 모델을 평가하는 한계를 극복하고, 실제 로봇 운용 시 마주할 수 있는 다양한 센서와 언어 오류를 체계적으로 시뮬레이션한다는 점에서 의미가 크다. RGB 손상은 ImageNet‑C와 En‑vEdit에서 영감을 받아 Motion Blur, Low‑Lighting + Noise, Spatter, Flare, Defocus, Foreign Object, Black‑Out 등 8가지 유형으로 구성했으며, 이는 카메라 흔들림, 조명 변화, 렌즈 오염 등 실제 현장에서 흔히 발생하는 현상을 정량화한다. 깊이 손상은 기존 연구에서 거의 다루지 않았던 Gaussian Noise, Missing Data, Multipath, Quantization 네 가지를 도입함으로써, 깊이 센서의 jitter, 투명 표면 반사, ToF 센서의 다중 경로 오류, 저비트 양자화 등 실용적인 오류 모델을 제공한다.

언어 측면에서는 스타일 변형(친절, 초보자, 전문가, 포멀), 대문자 강조, 토큰 마스킹, Black‑Box 및 White‑Box 악성 프롬프트 등 5가지 변형을 적용해, 모델이 표면 형태, 강조 표시, 최소 정보에 얼마나 의존하는지를 정밀하게 측정한다. 특히 LLM 기반 VLN 에이전트가 프롬프트 주입 공격에 취약함을 실험적으로 입증했다.

성능 평가에서는 NavTrust가 동일한 시작‑목표 위치를 VLN과 OGN 모두에 적용하도록 설계돼, 두 과제가 동일한 물리적 환경에서 직접 비교될 수 있다. 7개의 최신 모델(예: Uni‑NaVid, ETPNav 등)을 테스트한 결과, 평균 성공률이 20‑40% 포인트 수준으로 감소했으며, 특히 깊이 손상에 민감한 OGN 모델이 가장 큰 성능 저하를 보였다.

완화 전략 실험에서는 (1) 손상 인식 데이터 증강(프레임 단위와 에피소드 단위, 손상 가중치 기반), (2) 교사‑학생 증류(정책‑KL, 피처‑MSE, 모방 학습 복합 손실), (3) 어댑터 튜닝(경량 파라미터 추가), (4) LLM 파인‑튜닝(프롬프트 정제) 네 가지를 적용했다. 데이터 증강은 특히 지속적인 손상(에피소드 전체에 동일 손상 적용) 상황에서 가장 큰 로버스트성 향상을 보였으며, 교사‑학생 증류는 복합 손실 설계가 중요함을 보여준다. 어댑터 튜닝은 파라미터 효율성 측면에서 유리했지만, 성능 회복 폭은 제한적이었다. LLM 파인‑튜닝은 언어 손상(특히 악성 프롬프트)에서 유의미한 개선을 제공했지만, 이미지·깊이 손상에는 큰 영향을 미치지 못했다.

실제 모바일 로봇 실험에서는 NavTrust에서 선정된 최적의 데이터 증강·증류 조합을 적용한 Uni‑NaVid와 ETPNav이, 원본 모델 대비 Black‑Out 및 Low‑Lighting 상황에서 성공률이 각각 15%와 12% 포인트 상승하는 등 시뮬레이션 결과와 일관된 로버스트성을 입증했다.

전체적으로 NavTrust는 (1) RGB·깊이·언어 손상을 포괄하는 통합 평가 프레임워크, (2) 표준화된 프로토콜과 메트릭 제공, (3) 현존 모델의 취약점을 정량화, (4) 실용적인 완화 전략을 비교·검증하는 4가지 기여를 한다. 향후 연구는 손상 유형을 더 세분화하고, 멀티‑모달 어텐션 메커니즘을 손상에 강인하게 설계하는 방향으로 나아갈 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기