파이타고라스 공식의 수학적 근거와 실전 적용
본 논문은 야구 팀의 승률을 추정하는 파이타고라스 공식 RS^γ/(RS^γ+RA^γ) 의 이론적 배경을 Weibull 분포 모델을 통해 제시하고, 선형 근사식과 실제 시즌 데이터를 이용한 검증을 수행한다. 또한 공식의 한계와 향후 확장 가능성을 논의한다.
저자: Steven J. Miller, Taylor Corcoran, Jennifer Gossels
이 논문은 야구 팀의 승률을 추정하는 데 널리 쓰이는 파이타고라스 공식 RS^γ/(RS^γ+RA^γ) 의 수학적 근거와 실용적 적용을 종합적으로 다룬다. 서론에서는 현대 야구 통계학이 데이터 양과 다양성에서 급격히 성장했으며, 복잡한 시뮬레이션 없이도 간단히 승률을 예측할 수 있는 도구가 필요함을 강조한다. 파이타고라스 공식은 1981년 빌 제임스가 제시한 뒤, γ≈1.83 이라는 경험적 값을 사용해 높은 예측 정확도를 보였지만, 그 이론적 배경은 명확히 규명되지 않았다.
본 연구는 이를 보완하기 위해 두 팀의 득점(RS)과 실점(RA)을 동일한 shape 파라미터 γ 를 갖는 Weibull 분포(β = ‑½)에서 독립적으로 추출된 연속형 확률변수로 모델링한다. Weibull 분포는 α(스케일), β(위치), γ(형태) 세 파라미터로 정의되며, 특히 γ 가 1이면 지수분포, 2이면 제곱형태에 가까워 파이타고라스 공식과의 연결고리를 제공한다. 논문은 X∼Weibull(α,β,γ)일 때 X^{1/γ}가 지수분포가 된다는 사실을 이용해, 두 팀이 경기에서 승리할 확률 P(win)=∫∫_{x>y} f_X(x)f_Y(y)dxdy 를 계산한다. 적분을 변수 변환하고 Gamma 함수를 활용하면, 최종적으로 P(win)=RS^γ/(RS^γ+RA^γ) 이라는 닫힌 형태가 도출된다. 이 과정에서 β = ‑½를 선택한 이유는 평균값을 맞추기 위해 α를 조정할 때 수식이 단순해지기 때문이며, 연속형 모델이 이산형 득점 데이터와 스케일링이 동일하게 작용한다는 점을 강조한다.
이론적 증명 뒤에는 실제 데이터 검증이 이어진다. 저자는 2012년 시즌을 포함한 최근 5년간 메이저리그 팀들의 평균 득점(RS)과 평균 실점(RA)을 수집하고, 비선형 최소제곱법을 통해 최적 γ 값을 추정한다. 결과는 γ≈1.81~1.85 범위 내에서 안정적으로 수렴하며, 예측 승률과 실제 승률 간 평균 오차가 0.02~0.03(약 2~3 경기) 수준임을 보고한다. 또한, 파이타고라스 공식의 선형 근사식 WP≈0.5+0.5·(RS‑RA)/(RS+RA) 을 도출하고, 이를 회귀 분석으로 검증한다. 선형 모델은 γ≈2 에 가까울 때 가장 정확하지만, 실제 데이터에서는 약간의 비선형 왜곡이 존재함을 지적한다.
논문의 마지막 부분에서는 현재 진행 중인 연구 방향을 제시한다. 첫째, 플레이‑바이‑플레이 수준의 상세 데이터(예: 타자‑투수 매치업, 상황별 득점 확률)를 활용해 Weibull 파라미터를 경기 상황별로 다변화하는 방법을 모색한다. 둘째, 기존의 단일 γ 모델을 확장해 팀별 혹은 시즌별 γ 차이를 허용하는 베이지안 프레임워크를 제안한다. 셋째, 공식의 한계—특히 극단적인 득점 차이, 포스트시즌, 혹은 날씨·구장 효과 등—를 보완하기 위한 혼합 모델(Weibull+Poisson) 개발을 언급한다.
전체적으로 논문은 파이타고라스 공식이 단순히 경험적 규칙이 아니라, Weibull 분포 기반의 확률 모델에서 자연스럽게 도출될 수 있음을 수학적으로 증명하고, 실제 MLB 데이터에 적용해 그 타당성을 확인한다. 다만, β = ‑½라는 비현실적 가정, 평균값에만 의존한 검증, 그리고 복잡한 경기 상황을 반영하지 못하는 점은 향후 연구에서 보완되어야 할 주요 과제로 남는다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기