강화학습으로 순수추적 파라미터 자동 튜닝: PPO 기반 시선거리·조향이득 동시 제어

본 논문은 F1TENTH 레이싱 플랫폼에서 Pure Pursuit(PP) 경로 추적기의 핵심 파라미터인 시선거리(Ld)와 조향이득(g)을 동시에 온라인으로 조정하는 강화학습(PPO) 정책을 제안한다. 압축된 속도·곡률 피처를 입력으로 받아 연속적인 (Ld, g) 값을 출력하며, 시뮬레이션 및 실제 차량 실험에서 고정‑파라미터 PP, 속도 기반 적응 PP, 그리고 kinematic MPC 대비 랩 타임·경로 오차·조향 부드러움 모두에서 우수한 성…

저자: Mohamed Elgouhary, Amr S. El-Wakeel

본 논문은 자율 레이싱에서 널리 사용되는 Pure Pursuit(PP) 경로 추적기의 핵심 파라미터인 시선거리(Ld)와 조향이득(g)을 동시에 온라인으로 조정하는 강화학습 기반 프레임워크를 제안한다. 기존의 PP는 단순하고 실시간성이 뛰어나지만, Ld와 g의 선택에 따라 차량의 민첩성·안정성이 크게 달라진다. 전통적인 접근법은 속도나 곡률에 기반한 규칙 기반 스케줄을 사용했지만, 이러한 함수 형태와 계수는 트랙·속도 프로파일에 민감해 일반화가 어려웠다. 논문은 이 문제를 해결하기 위해 연속적인 2‑차원 액션 공간을 정의하고, Proximal Policy Optimization(PPO) 알고리즘을 이용해 정책 πθ(a|s)를 학습한다. 관측은 차량 현재 속도 v와 현재 위치를 기준으로 근·중·원거리(near/mid/far) 세 지점의 절대 곡률 κ0, κ1, κ2, 그리고 κ1‑κ0 차이를 포함한 5‑차원 벡터 s_t로 구성한다. 이 피처는 최소‑곡률 라인에서 미리 계산된 곡률 정보를 활용해 복잡한 이미지 기반 관측 없이도 트랙 기하학을 충분히 파악한다. 정책은 Ld∈

강화학습으로 순수추적 파라미터 자동 튜닝: PPO 기반 시선거리·조향이득 동시 제어

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기