경량형 교통신호 시뮬레이터
LightSim은 셀 전송 모델(CTM)을 기반으로 한 순수 파이썬 교통신호 시뮬레이터로, Gymnasium·PettingZoo 인터페이스를 제공한다. 1CPU에서 초당 2만 스텝 이상을 달성하며, SUMO와 비교해 3∼7배 빠른 학습 속도를 보인다. 실제 도시 네트워크 6곳을 포함한 19개 시나리오와 7가지 기본 컨트롤러를 내장해 재현성을 높이고, 신호 제어 연구의 진입 장벽을 일일 수준으로 낮춘다.
저자: Haoran Su, Hanxiao Deng
본 논문은 강화학습 기반 교통신호 제어 연구가 현재 미시 시뮬레이터인 SUMO와 CityFlow에 크게 의존하고 있어, 설치·설정 복잡성, IPC에 의한 속도 저하, 버전·플랫폼 차이로 인한 재현성 문제 등 여러 병목을 겪고 있음을 지적한다. 저자들은 신호 타이밍 최적화에 핵심적인 현상이 ‘큐 형성·소멸’이며, 이는 차량 개별 움직임을 상세히 모델링하는 미시 시뮬레이터가 아니라 매크로 흐름을 다루는 셀 전송 모델(CTM)로 충분히 포착될 수 있다고 주장한다. CTM은 LWR 방정식의 Godunov 이산화 형태로, 각 도로를 셀 길이 Δx=v_f·Δt 로 나누고, 셀 밀도 k_i(t)를 기반으로 전송(S_i)·수신(R_i) 함수를 계산해 흐름을 결정한다. 교차로에서는 이동별 전환 비율 β_m, 포화율 s_m, 신호 마스크 σ_m을 적용해 신호 상태에 따라 흐름을 제한한다. 이러한 수식은 순수 파이썬과 NumPy 벡터 연산만으로 구현돼, 1CPU에서 초당 2만 스텝 이상을 달성한다.
LightSim은 이러한 CTM 기반 엔진을 중심으로 모듈화된 아키텍처를 설계한다. 코어 엔진은 네트워크 토폴로지를 평탄화한 배열에 저장해, 전·후송 흐름과 밀도 업데이트를 한 번의 행렬 연산으로 수행한다. 신호 매니저는 각 교차로의 페이즈 상태, 최소 녹색 시간, 황색·전부 적색 구간을 추적해 매 시뮬레이션 스텝마다 이동 마스크를 생성한다. 수요 관리 모듈은 경계 링크에 포아송 도착률을 적용해 차량 유입을 자동으로 생성한다.
RL 인터페이스는 Gymnasium 기반 단일 에이전트 환경(LightSimEnv)과 PettingZoo 기반 다중 에이전트 환경(LightSimParallelEnv)을 제공한다. 관측·행동·보상은 플러그인 방식으로 등록 가능해, 기본 관측은 현재 페이즈 원‑핫 인코딩, 입구 링크 밀도 정규화, 큐 존재 여부를 결합한 형태이며, 행동은 페이즈 선택 또는 유지, 보상은 총 큐 길이의 음수 등 다양한 옵션을 지원한다.
시나리오 제공 측면에서 LightSim은 OSM에서 자동으로 네트워크를 추출·전처리하는 파이프라인을 제공한다. 사용자는 위도·경도와 반경을 지정하면 해당 지역의 도로와 신호화 교차로를 자동 식별하고, 셀 단위로 discretize해 CTM에 적합한 네트워크를 생성한다. 현재 16개의 실제 도시(맨해튼, 상하이, 베이징, 샌프란시스코, 로스앤젤레스 등)와 3가지 토폴로지 생성기(grid, arterial, single‑intersection)를 포함해 총 19개의 베이스라인 시나리오를 제공한다.
충실도 검증에서는 LightSim이 삼각형 기본 다이어그램을 정확히 재현하고, SUMO와 동일한 컨트롤러 순위를 유지함을 실험적으로 입증한다. 또한 두 가지 메소코스코픽 확장인 ‘시작 손실 시간’과 ‘확률적 수요’를 도입해, 신호 전환 시 발생하는 실제 차량 가속 지연과 도착 변동성을 모델링한다. 시작 손실 시간 τ_L은 기본적으로 0초이며, 활성화 시 전환당 2초의 용량 감소를 적용해 빈번한 전환을 하는 MaxPressure와 같은 알고리즘에 페널티를 부여한다. 확률적 수요는 Poisson 분포를 이용해 각 경계 링크에 도착 차량 수를 샘플링함으로써, 결정론적 수요가 고정된 환경에서 발생할 수 있는 인위적 이점을 제거한다.
내장된 7가지 신호 컨트롤러는 고전적 FixedTime, Webster, Self‑Organizing Traffic Lights(SO‑TL)부터, MaxPressure, LT‑Aware MaxPressure(전환 비용 고려), EfficientMaxPressure(압력 기반 녹색 시간 조절), 그리고 GreenWave(거리 기반 위상 오프셋)까지 다양하다. 특히 LT‑Aware MaxPressure는 전환 비용을 압력 이득과 비교해, 이득이 충분히 클 때만 페이즈를 바꾸도록 설계돼, 손실 시간이 큰 상황에서도 안정적인 흐름을 유지한다.
시각화 대시보드는 FastAPI와 WebSocket을 활용해 실시간 셀 밀도, 신호 상태, 주요 교통 지표(큐 길이, 통과량, 평균 속도)를 웹 캔버스에 색상·애니메이션으로 표시한다. 라이브 시뮬레이션, 재생, RL 체크포인트 재생 모드를 지원해, 연구자는 정책 행동을 실시간으로 관찰하고 디버깅할 수 있다.
실험 결과는 LightSim이 SUMO 대비 3∼7배 빠른 학습 속도를 보이며, 다양한 네트워크 규모(1∼64 교차로)와 시나리오에서 동일한 정책 순위를 유지함을 보여준다. 또한 파이프라인 전체가 pip install 로 설치 가능하고, 3줄 코드만으로 환경을 생성·학습할 수 있어, 연구자가 복잡한 설정 없이 다중 시드·다중 시나리오 실험을 손쉽게 수행할 수 있다. 이는 교통신호 제어 분야에서 재현성을 높이고, 새로운 강화학습 알고리즘의 개발·비교를 가속화하는 중요한 진전이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기