PGA 투어 점수를 정규분포로 모델링
본 논문은 2007년 PGA 투어 46개 대회의 전체 스코어를 분석하여, 각 라운드 점수가 평균과 표준편차로 정의되는 정규분포(가우시안)로 잘 근사함을 보인다. Kolmogorov‑Smirnov 검정을 통해 대부분의 대회에서 귀무가설을 기각할 수 없으며, 이를 바탕으로 선수별 z‑score(표준점수)를 도입해 코스 난이도와 무관하게 상대적 경기력을 평가하는 방법을 제시한다. 또한, z‑score를 이용해 타이거 우즈가 연속 11승 기록을 깰 확…
저자: Robert D. Grober
이 연구는 2007년 PGA 투어의 46개 스트로크플레이 대회와 예선 대회의 스코어 데이터를 이용해, 골프 라운드 점수가 정규분포(가우시안)로 모델링될 수 있음을 입증한다. 먼저 중앙극한정리를 골프에 적용한다. 한 라운드 점수는 18개의 홀 점수 합이며, 각 홀 점수는 서로 독립적인 확률변수라고 가정한다. N=18이라는 비교적 작은 수치에도 불구하고, 각 홀 점수의 분포가 크게 비대칭이 아니면 합은 정규분포에 근접한다는 이론적 근거를 제시한다.
실증 분석을 위해 2007년 PGA 투어 예선(총 158명, 6라운드, 948점)과 46개 정규대회의 전체 스코어를 수집하였다. 각 대회별 평균(μ)과 표준편차(σ)를 계산하고, 동일한 μ와 σ를 갖는 가우시안 난수를 10⁵개 생성해 히스토그램을 만든 뒤 원 데이터와 비교하였다. 시각적으로는 두 분포가 거의 일치했으며, Kolmogorov‑Smirnov(K‑S) 검정을 통해 정량적으로도 검증하였다. 예선에서는 p‑value가 0.92로 귀무가설(두 분포가 동일) 기각이 불가능했으며, 46개 대회 전체에서도 대부분 p‑value가 0.7 이상이었다. 시뮬레이션을 통해 기대되는 p‑value 분포와 실제 관측된 분포가 일치함을 확인함으로써, PGA 투어 스코어가 정규분포를 따른다는 가설을 통계적으로 강하게 뒷받침한다.
정규성을 확인한 뒤 논문은 z‑score(표준점수)를 도입한다. z‑score는 (점수‑μ)/σ 로 정의되며, 코스 난이도에 따른 평균·분산 차이를 보정한다. 따라서 선수 간 상대적 경기력을 동일한 척도로 비교할 수 있다. 2007년 상위 200명 선수의 평균 z‑score(z̄)와 표준오차를 계산한 결과, 순위와 z̄ 사이에 거의 선형 관계가 나타났으며, 순위 125위(투어 면허 유지 기준) 근처에서 z̄≈0이 된다. 이는 평균보다 높은 점수를 기록하는 선수가 면허를 유지할 가능성이 크다는 것을 의미한다.
특히, 1위인 타이거 우즈는 z̄≈1.05로 다른 상위 선수들(z̄≈0.5)보다 현저히 높은 값을 보였다. 이는 우즈가 평균 필드보다 약 1σ 정도 높은 수준으로 매 라운드 상위 15% 안에 든다는 의미이다.
연도별 z‑score 추이를 분석한 결과, 저스틴 레너드가 가장 큰 향상을 보였으며, 그의 z̄는 연초 -0.41에서 연말 -0.62로 거의 1σ에 해당하는 향상을 기록했다. 타이거 우즈도 약 0.66σ의 향상을 보였지만, 절대값은 여전히 최고 수준이었다.
마지막으로, z‑score를 이용해 장기 기록(연속 11승) 달성 확률을 시뮬레이션했다. 다른 선수들의 평균 z̄와 σ를 기반으로 토너먼트마다 4라운드 점수를 생성하고, 가상의 ‘타이거 우즈’가 다양한 z̄ 값을 가질 때 승률과 연속 승리 확률을 계산하였다. 결과는 z̄가 0.5 정도일 때 승률이 약 2.5%에 불과하고, 연속 11승 확률은 실질적으로 0에 가까워, 현재 우즈의 z̄≈1.05라도 기록을 깨기엔 매우 어려운 것으로 나타났다.
이 논문은 PGA 투어 스코어가 정규분포를 따른다는 경험적 증거를 제시하고, 이를 기반으로 z‑score라는 통계적 지표를 도입해 선수별 퍼포먼스를 코스 독립적으로 평가하는 방법을 제안한다. 또한, 이러한 모델을 활용해 장기적인 기록 달성 가능성을 정량적으로 추정함으로써 골프 통계 분석에 새로운 접근법을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기