장애물 위험을 고려한 강화 학습 기반 보행자 경로 계획 모델

기존의 '힘' 기반 보행자 시뮬레이션 모델의 비자연스러움을 극복하기 위해, 인간의 환경 인식과 위험 감지 능력을 반영한 강화 학습 기반의 새로운 보행자 경로 계획 및 충돌 회피 모델을 제안한다. 제안 모델은 PPO 알고리즘을 사용하여 훈련되었으며, 실제 인간의 보행 관습과 행동 패턴을 유사하게 모방할 수 있음을 확인하였다.

저자: Thanh-Trung Trinh, Dinh-Minh Vu, Masaomi Kimura

장애물 위험을 고려한 강화 학습 기반 보행자 경로 계획 모델
본 논문은 기존의 미시적 보행자 시뮬레이션 모델이 물리적 '힘'의 개념에 의존하여 실제 인간의 복잡한 내비게이션 행동(전략적 사고, 사회적 상호작용, 위험 인식 기반 의사결정 등)을 충분히 재현하지 못한다는 문제의식에서 출발한다. 이를 해결하기 위해 저자들은 인간의 학습 과정과 유사한 강화 학습(Reinforcement Learning) 프레임워크를 도입한 새로운 보행자 경로 계획 및 충돌 회피 모델을 제안한다. 연구의 핵심은 크게 두 가지로, 첫째는 인간의 인지를 반영한 환경 모델링, 둘째는 인간의 편안함과 사회적 관습을 반영한 보상 함수 설계이다. 환경은 22m x 10m의 제한된 공간으로 설정되었으며, 에이전트의 출발점과 목적지는 각각 하단과 상단에 무작위로 위치한다. 핵심 요소인 '장애물'은 물리적 크기뿐만 아니라 인간이 인지하는 '공간적 효과'와 '위험 수준'을 속성으로 갖는 실체로 정의된다. 예를 들어, 물웅덩이보다 구멍이 더 높은 위험 수준을 가져 에이전트가 더 멀리 피하도록 유도한다. 에이전트는 현재 위치, 목적지 위치, 그리고 장애물의 유무 및 그 속성(위치, 크기, 위험도)을 관찰(상태)으로 입력받는다. 신경망 기반 정책은 이 상태를 받아 10개의 경로 노드(x 좌표 시퀀스)로 구성된 전체 경로를 한 번에 출력(행동)한다. 이 경로는 이후 보상 함수에 의해 평가된다. 보상 함수는 단순한 목표 달성 이상의 요소들을 포함한다: 1) 최단 경로 선호, 2) 급격한 방향 변경 페널티, 3) 도로 가장자리와 평행 이동 및 좌측 통행 규칙 준수 장려, 4) 벽면 과접근 페널티. 이러한 다차원 보상 체계는 에이전트로 하여금 인간처럼 '편안하고' '관례에 맞는' 경로를 선택하도록 유도한다. 학습 알고리즘으로는 정책 기반 강화 학습 알고리즘인 PPO(Proximal Policy Optimization)를 사용하였다. PPO는 정책 업데이트 시 새로운 정책이 기존 정책에서 너무 멀리 벗어나지 않도록 제약을 두어 학습 안정성을 높인다. 또한, 훈련 중 에이전트가 실패(충돌)했을 때 환경을 즉시 초기화하지 않고 일정 스텝 동안 유지하는 메커니즘을 도입하여, 에이전트가 실패한 정책에 대한 부정적 보상을 충분히 경험할 수 있도록 하였다. 저자들은 제안 모델을 구현하고 기존의 규칙 기반 모델(사회력 모델 등)과의 비교 평가를 수행하였다. 그 결과, 강화 학습 기반 에이전트가 단순한 충돌 회피를 넘어, 장애물의 위험 수준에 따라 적절히 반응하고, 보행 통행 관습을 따르는 등 실제 인간 보행자와 유사한 특성을 보이는 경로를 계획할 수 있음을 확인하였다. 이는 강화 학습이 복잡한 인간 행동 모방을 위한 유효한 도구가 될 수 있음을 시사하며, 특히 고도로 현실적인 보행자 시뮬레이션이 필요한 자율주행 차량 테스트 등의 분야에 기여할 수 있을 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기