뉴델리 버스 시간표 최적화를 위한 대규모 GPS 데이터셋

본 논문은 뉴델리 대중교통의 신뢰성 저하 원인 중 하나인 시간표 부재와 비정규성을 해결하고자, 500여 개 버스 노선에 대한 실시간 GPS 데이터를 수집·정제한 대규모 데이터셋을 구축하고 이를 공개한다. 데이터는 10초 간격으로 수집된 동적 정보(시간, 위도·경도, 차량 번호, 노선 번호, 진행 방향)와 정적 메타데이터(정류장 위치, 노선 구조, 운행 스케줄)로 구성되며, 프로토콜 버퍼 형식으로 제공된다. 전처리 단계에서는 각 GPS 포인트를 정류장 좌표와 50 m 반경 내에 매핑해 정류장‑기반 시계열로 변환하고, 불필요한 잡음을 제거한다. 이렇게 정제된 데이터는 3개월 분량이 데이터베이스에 저장돼, 실시간 응용뿐 아니라 장기 트렌드 분석에도 활용 가능하도록 설계되었다. 시간표 생성 알고리즘은 두 단계로 이루어진다. 첫 번째 단계에서는 각 노선의 첫 정류장 출발 시각을 추정한다. 기존 K‑means 클러스터링에 최소 클러스터 간 거리 제약(T₁)을 추가해, 클러스터 간 간격이 버스 운행 주기와 일치하도록 강제한다. 클러스터 내부 평균을 업데이트하고, 클러스터 크기가 일정 임계값(T₂, 10일) 이하인 경우는 이상치로 배제한다. 이를 통해 출발 시각의 변동성을 최소화하고, 안정적인 시작 시점을 확보한다. 두 번째 단계에서는 첫 정류장 평균 출발 시각을 기준으로, 각 정류장까지의 평균 이동 시간을 15분 구간별로 계산한다. 구간별 도착 시간은 정규분포를 따르는 것으로 가정하고, 분산을 최소화하는 방향으로 시간표를 설계한다. 승객 대기시간은 사전 시간표(무작위 도착) 대비 사후 시간표(제안된 시간표)에서의 기대 대기시간 차이로 정의하며, 수식 (6)·(7)에 따라 평균값을 구한다. 실험은 두 개 노선(425번, 534번)의 상·하행을 대상으로 진행되었다. 425번은 평균 대기시간이 22분에 달하는 비정규 노선이며, 534번은 평균 5분 수준의 빈번 운행 노선이다. 데이터는 첫 달을 학습, 둘째 달을 테스트하는 교차 검증, 홀수·짝수 일 교차 검증, 그리고 월별 교차 검증으로 나누어 평가하였다. 결과는 모든 실험에서 사후 시간표가 사전 시간표 대비 평균 대기시간을 30 %~45 % 감소시켰으며, 특히 425번 노선에서는 대기시간 감소율이 40 %를 초과했다. 그래프(Fig. 4~12)에서 확인할 수 있듯이, 시작 시각 클러스터링 단계가 출발 시각의 변동성을 크게 줄였고, 이는 이후 정류장 도착 시간 예측 정확도 향상으로 이어졌다. 알고리즘의 복잡도는 K‑means와 평균 계산 수준에 머물러, 교통기관의 일반적인 IT 인프라에서도 실시간 적용이 가능하다. 또한 데이터셋이 공개됨으로써, 기존 연구에서 사용된 비공개 혹은 제한된 데이터와 달리, 동일한 데이터에 대해 다양한 알고리즘을 비교·재현할 수 있는 표준 벤치마크가 된다. 논문은 데이터 접근 방법, 전처리 스크립트, 클러스터링 파라미터 설정 등을 상세히 기술하여, 향후 연구자들이 손쉽게 데이터와 알고리즘을 활용하도록 돕는다. 결론적으로, 이 연구는 (1) 뉴델리 버스 운행의 실시간 GPS 데이터를 대규모로 수집·공개, (2) 제약‑클러스터링 기반의 간단하면서도 효과적인 시간표 생성 알고리즘을 제시, (3) 실제 노선에 적용해 승객 대기시간을 현저히 감소시킨 실증 결과를 제공함으로써, 대중교통 시간표 최적화 분야에 중요한 기준점과 실용적인 솔루션을 제공한다.

뉴델리 버스 시간표 최적화를 위한 대규모 GPS 데이터셋

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기