전기 자율 이동 서비스의 동적 가격·배차 최적화와 실시간 정책 설계

이 논문은 전기 자율 모빌리티‑온‑디맨드(AMoD) 시스템에서 플랫폼 운영자가 가격, 차량 라우팅, 충전 스케줄을 동시에 최적화하여 수익을 극대화하고 고객 대기 시간을 최소화하는 방법을 제시한다. 먼저, 저자들은 M개의 노드로 구성된 완전 연결 그래프를 가정하고, 각 OD(Origin‑Destination) 쌍에 대한 고객 도착을 시간‑가변 포아송 프로세스로 모델링한다. 고객은 가격에 따라 수요가 변하는 가격‑민감도 함수를 가지고 있으며, 가격 pij(t) 가 설정되면 유도 도착률 Λij(t)=λij(t)(1−F(pij(t))) 로 표현된다. 차량은 전기 배터리를 탑재하고 있으며, 배터리 용량 vmax 와 이산 에너지 레벨 V={0,…,vmax} 로 정의된다. 충전은 각 노드에 설치된 충전소에서 단위 에너지당 전력 가격 pi(t) 를 지불하며, 주행은 τij 시간과 vij 에너지 소모를 요구한다. 정적 정책 부분에서는 시간에 무관한 평균 파라미터(λ, pi 등)를 사용해 네트워크 흐름 최적화 문제를 수립한다. 목적함수는 고객 요금 수입에서 차량 운영비 β, 충전비, 대기 비용 w·큐길이 등을 차감한 순이익을 최대화한다. 제약조건은 흐름 보존, 배터리 충전·소모, 그리고 모든 큐가 비율 안정(rate‑stable)하도록 하는 수학적 조건이다. 이 정적 문제는 선형(또는 혼합 정수) 프로그램으로 풀 수 있지만, 해는 연속 흐름을 허용하므로 실제 차량 배정에 바로 적용할 수 없으며, 수요·전기 가격 변동에 대한 적응력이 부족하다. 동적(실시간) 정책 설계에서는 전체 시스템 상태 S(t) = {qij(t), vi(t), pi(t)} 를 관측하고, 가격 pij(t), 라우팅·충전 결정 xvij(t), xvic(t) 를 동시에 선택한다. 이 문제는 고차원 연속·이산 상태·액션 공간을 갖는 마코프 결정 과정(MDP)이며, 정확한 DP 해법은 차원의 저주와 연산 복잡도로 인해 실용적이지 않다. 따라서 저자들은 Proximal Policy Optimization(PPO) 기반 심층 강화학습 에이전트를 설계해 정책 πθ(S) 를 신경망으로 근사한다. 보상 함수는 순이익에 대기 비용 페널티를 추가한 형태이며, 에피소드마다 시뮬레이션된 수요·전기 가격 시나리오를 통해 학습한다. 주요 설계 포인트는 (1) 정수형 차량 배정 출력을 보장하기 위한 후처리 전략, (2) 가격‑수요 모델 파라미터의 사전 학습을 통한 정확한 수요 예측, (3) 전력 가격 변동을 활용한 스마트 충전 스케줄링이다. 실험에서는 뉴욕 맨해튼과 샌프란시스코의 실제 교통·전력 데이터를 사용해 두 지역에 대해 정책을 학습하고 평가했다. 정적 정책은 큐를 안정화시키지만 평균 큐 길이가 크게 유지돼 고객 대기 시간이 길어지고 수익이 낮았다. 반면, 제안된 실시간 정책은 큐 길이를 정적 정책 대비 200배 이상 감소시키고, 충전 비용을 약 25 % 절감했으며, 전체 순이익을 두 배 이상 향상시켰다. 특히, 실시간 정책은 전력 가격이 낮은 시간대에 충전을 집중하고, 가격을 조정해 수요를 평탄화함으로써 차량 재배치와 충전 비용을 동시에 최소화했다. 결과는 정적 흐름 기반 해법이 제공하는 안정성만으로는 충분하지 않으며, 시스템의 stochastic 특성을 반영한 실시간, 통합 제어가 필요함을 강력히 시사한다.

전기 자율 이동 서비스의 동적 가격·배차 최적화와 실시간 정책 설계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기