레스터 시티의 기적을 풀다 2015‑16 EPL 시즌 xG 모델링 분석
본 논문은 2015/16 시즌 영국 프리미어리그의 샷 데이터를 기반으로 기대 득점(xG) 모델을 구축하고, 이를 포아송 프로세스와 결합해 전체 시즌의 승점·순위·우승 확률을 시뮬레이션한다. 전체 데이터를 이용한 결과는 리그 구조를 잘 재현하지만 레스터 시티의 우승 확률은 매우 낮게 나타난다. 반면 전반기 xG만 사용했을 때는 레스터가 상위권에 위치하고 우승 가능성이 소폭 상승한다는 점을 보여, xG가 시즌 초반 ‘경고 신호’ 역할을 할 수 있음…
저자: Sheikh Badar Ud Din Tahir, Leonardo Egidi, Nicola Torelli
본 논문은 2015/16 시즌 영국 프리미어리그(EPL)의 샷‑레벨 이벤트 데이터를 활용해 기대 득점(xG) 모델을 구축하고, 이를 기반으로 시즌 전체 승점·순위·우승 확률을 확률적 시뮬레이션으로 추정한다. 연구는 크게 두 부분으로 나뉜다. 첫 번째는 xG 모델링 단계이며, 두 번째는 xG를 이용한 포아송 기반 득점 시뮬레이션 및 결과 분석이다.
xG 모델링에서는 기존 문헌에서 널리 사용되는 거리·각도 외에도 ‘공간 구역’, ‘신체 부위(발, 머리 등)’, ‘샷 종류(오픈플레이, 프리킥, 페널티 등)’, ‘경기 상황(득점 차, 홈/어웨이 등)’ 등 10여 개의 도메인 특성을 손수 설계한다. 이들 특성은 공개된 이벤트 데이터에 포함된 좌표와 메타데이터를 전처리해 추출한다. 로지스틱 회귀 모델에 이 특성들을 입력해 각 샷이 득점으로 전환될 확률을 추정하고, 팀‑별 경기당 xG를 계산한다. 로지스틱 회귀를 선택한 이유는 변수의 회귀계수를 통해 해석 가능성을 확보하고, 과적합 위험을 최소화하기 위해 L2 정규화를 적용했기 때문이다. 모델 검증에서는 5‑fold 교차검증을 수행해 AUC 0.78 수준의 분류 성능을 얻었다.
다음 단계에서는 팀‑별 경기당 xG를 포아송 분포의 평균(λ)으로 사용한다. 포아송 모델은 득점이 희소하고 독립적인 사건이라는 가정에 부합하며, 실제 경기에서 관측되는 과다·과소 득점 현상을 자연스럽게 포착한다. 각 경기마다 두 팀의 λ 값을 이용해 독립적으로 득점 수를 샘플링하고, 승·무·패를 결정한다. 이 과정을 전체 380경기에 대해 10,000번 반복해 시즌 전체 승점 분포와 순위 확률을 추정한다.
전체 시즌 데이터를 사용한 시뮬레이션 결과는 리그 구조를 잘 재현한다. 상위 4팀(레스터 시티, 토트넘, 맨체스터 시티, 아스날)을 모두 90% 이상의 확률로 예측했으며, 강등권(노리치, 사우샘프턴, 엘튼)도 높은 정확도로 식별했다. 그러나 레스터 시티의 실제 승점은 시뮬레이션 평균보다 약 10점 이상 높았고, 모델이 예측한 우승 확률은 0.3% 미만으로 매우 낮았다. 이는 레스터가 ‘통계적 이례’로서 모델이 포착하지 못한 효율적인 득점 전환과 방어적인 안정성을 가졌음을 의미한다.
전반기(첫 19경기) 데이터만을 이용해 동일한 시뮬레이션을 수행하면 결과가 달라진다. 전반기 xG 기준 레스터는 상위 5위 안에 들고, 우승 확률이 2~3% 수준으로 상승한다. 이는 전반기 xG가 실제 순위와 괴리될 경우, 시즌 후반에 팀이 과소평가될 가능성을 시사한다. 저자들은 이를 ‘조기 경고 신호’로 해석하며, xG가 단순 예측 도구가 아니라 시즌 흐름을 진단하는 데 유용한 지표임을 강조한다.
연구는 또한 모델의 한계를 솔직히 제시한다. 첫째, xG 계산에 사용된 샷 특성은 데이터 제공자마다 차이가 있어 모델 재현성이 제한된다. 둘째, 포아송 가정은 득점이 완전히 독립적이라는 전제에 의존하므로, 경기 흐름에 따른 ‘모멘텀’이나 전술 변화는 반영되지 않는다. 셋째, 샷 수가 적은 팀에서는 xG 변동성이 크게 확대돼 확률 추정이 불안정해진다. 이러한 제약을 감안하면, xG 기반 시뮬레이션은 ‘베이스라인’으로 활용하고, 베팅 오즈, 선수 부상, 전술 변수를 추가로 결합해 보완하는 것이 바람직하다.
결론적으로, 본 논문은 xG 모델을 이용해 전체 시즌 승점과 순위를 확률적으로 시뮬레이션하는 프레임워크를 제시하고, 레스터 시티의 우승이 통계적으로 매우 낮은 확률임에도 불구하고 실제로 일어난 ‘이례’를 설명한다. 또한 전반기 xG가 시즌 후반 성과를 예측하는 데 유의미한 정보를 제공한다는 점에서, xG는 ‘예측’보다는 ‘진단’ 역할에 더 적합한 도구임을 입증한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기