축구 경기, 실험으로서의 한계와 승자 판정 신뢰도

축구 경기를 두 팀의 실력을 비교하는 실험으로 보고, 최종 점수를 베이즈 방법으로 분석하면 “최고의 팀이 승리했는가?”에 대한 신뢰도가 낮음이 드러난다. 단순 포아송 모델부터 부정 이항·다변량 포아송까지 다양한 모델을 적용해도 결과는 크게 변하지 않으며, 일반적인 점수에서는 90 % 이상의 확신을 얻기 어렵다. 경기 수를 늘리거나 골 수를 증가시키는 규칙 변화가 필요하지만, 현재 형태를 크게 바꾸지 않으면 만족스러운 신뢰도를 확보하기 힘들다.

저자: G. K. Skinner, G. H. Freeman

축구 경기, 실험으로서의 한계와 승자 판정 신뢰도
본 논문은 축구 경기를 두 팀의 상대적 실력을 판단하는 통계적 실험으로 보고, 경기 결과가 실제 실력 차이를 정확히 반영했는지를 확률적으로 평가한다. 먼저, 가장 단순한 모델로 각 팀의 득점 과정을 일정한 평균 λ를 갖는 포아송 과정으로 가정한다. 경기 시간 T 에 대해 기대 득점 α = λT 를 정의하면, 두 팀의 득점 (Nₐ, N_b) 는 독립적인 단변량 포아송 분포의 곱으로 표현된다(식 1). 경기 종료 후 관측된 점수 (Nₐ, N_b) 를 이용해 베이즈 정리를 적용하면 사후 확률 P(αₐ, α_b | Nₐ, N_b) 를 구할 수 있다. 사전 분포를 ‘평평한’ 즉, 모든 α 쌍이 동등하게 가능하다고 가정하면, 관측된 점수와 가장 일치하는 평균값은 αₐ = Nₐ, α_b = N_b 가 된다. 여기서 핵심은 “αₐ > α_b 임에도 불구하고 Nₐ < N_b 와 같은 역전 결과가 나타날 확률 w”이다. 이 확률은 식 3에 제시된 이중 적분을 통해 계산되며, 결과를 등고선 형태의 그래프로 시각화한다(그림 1). 그림 1에 따르면, 득점 차이가 3~4골 이하인 대부분의 경기에서는 w 가 10 % 이하가 되지 않는다. 즉, 90 % 이상의 신뢰도를 얻으려면 최소 3~4골 차이가 필요하고, 실제 상위 리그 경기에서는 1‑σ 수준(≈32 % 오류)조차 만족하지 못한다. 다음으로 저자들은 보다 현실적인 모델을 도입한다. FIFA 월드컵(1938‑2006) 데이터를 분석한 결과, 단순 포아송 분포는 고득점 꼬리에서 부족함을 보이며, 부정 이항 분포가 더 적합함을 확인한다(그림 2). 부정 이항은 포아송 평균 α 의 가중합으로 해석될 수 있으며, 이는 α 의 사전 분포가 넓은 감마 형태임을 의미한다. 이 사전 분포를 적용하면 w 값은 더욱 커져, ‘오류 가능성’이 증가한다(그림 3). 연장전 포함 여부도 검토하였다. 연장전이 적용된 경우 무승부 비율이 25 %에서 12.3 %로 감소하지만, 전체 득점 분포에는 큰 영향을 미치지 않는다. 중요한 점은 사전 분포가 실제 팀들의 평균 득점 범위와 일치하도록 제한될 때, 두 팀의 실력 차이는 더욱 미세해지고, 따라서 단일 경기로 실력을 정확히 구분하기는 거의 불가능에 가깝다는 것이다. 토너먼트 차원에서의 함의도 탐구한다. 다중 경기 체제에서는 개별 경기의 오류가 누적될 위험이 있다. 예를 들어, 월드컵 16강부터 결승까지 4번의 승강전이 필요하므로, 각 경기에서 w ≈ 20 %라면 최종 우승팀이 실제 최강팀일 확률은 약 0.28 에 불과하다. 실제 2006년 월드컵에서 이탈리아가 4경기를 거쳐 우승한 경우를 적용하면 약 30 % 수준이다. 또한, ‘비전이행 삼중항’(A > B > C 이지만 경기 결과가 순환) 발생 빈도도 분석했으며, 관측된 12 %는 완전 무작위(25 %)에 비해 낮지만, 여전히 무시할 수 없는 수준이다. 결론적으로, 현재 축구 경기의 득점 구조는 통계적으로 ‘신뢰도 낮은 실험’에 가깝다. 경기당 평균 득점이 1.4 골 수준이므로, 높은 신뢰도를 확보하려면 득점 차이를 크게 만들거나, 경기 시간을 늘리거나, 골문 크기를 확대하는 등 근본적인 규칙 변형이 필요하다. 그러나 이러한 급진적 변화 없이는 “최고의 팀이 승리했다”는 결론을 90 % 이상의 확신으로 내리기 어렵다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기