볼파크와 수비 효과를 동시에 추정하는 총루타 잔차 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 Statcast 2015‑2024 데이터를 활용해, 탈출속도·발사각 기준 기대 총루타를 구하고 실제 총루타와의 차이인 총루타 잔차(TBR)를 정의한다. TBR을 볼파크와 수비팀의 범주형 변수로 회귀분석함으로써 두 효과를 동시에 추정하고, 평균을 중심으로 표준편차 단위의 지표로 변환한다. 결과는 기존 MLB 공식 지표와 높은 일관성을 보이며, 최근 경기 환경 변화(시프트 제한, 데이터 기반 포지셔닝, 공의 물리적 변동)와도 부합한다.

상세 분석

이 논문은 야구에서 타격 성과를 평가할 때 ‘볼파크 효과’와 ‘팀 수비력’이 동시에 작용한다는 점에 주목한다. 기존 방법은 홈·어웨이 비율이나 단일 시즌 회귀 등으로 추정했으나, 일정(스케줄) 불균형·팀 구성을 충분히 통제하지 못해 편향이 발생한다는 한계가 있었다. 저자들은 이러한 문제를 ‘총루타 잔차(TBR)’라는 새로운 지표로 해결한다. 먼저 EV(Exit Velocity)와 LA(Launch Angle)를 3 mph·3° 간격의 격자로 구분하고, 각 격자에서 전체 리그 평균 총루타(µ_g)를 계산한다. 개별 타구의 실제 총루타(TB_i)와 µ_g의 차이를 R_i=TB_i−µ_g(i)로 정의함으로써, 접촉 품질을 완전히 통제하고 남은 변동을 볼파크와 수비의 합성 효과로 간주한다.

그 다음, R_i를 볼파크(p(i))와 수비팀(d(i))의 고정 효과로 모델링한다: R_i=β_0+β_park(p(i))−β_def(d(i))+ε_i. 여기서 ‘−β_def’는 수비가 좋은 팀일수록 잔차가 감소한다는 의미이며, 양의 β_park은 타구가 더 많이 뜨는(공격 친화적인) 구장을 나타낸다. 범주형 변수는 30개 구장·30개 팀 각각에 대해 더미 변수를 두고, 식별성을 위해 애틀랜타 브레이브스를 기준 수비팀, 트루이스트 파크를 기준 구장으로 설정한다.

데이터 규모가 방대하므로 (p,d) 조합별 평균 R̄_pd와 관측 수 n_pd를 구해 가중 최소제곱(가중치=n_pd)으로 회귀를 수행한다. 이는 개별 타구 수준의 OLS와 수학적으로 동일하지만, 연산 효율성을 크게 높인다. 추정 후에는 전체 평균을 빼서 리그 평균을 0으로 중심화하고, 효과의 표준편차(s_β)를 이용해 z‑score를 계산한다. 최종적으로 100+20·z 형태의 지표(Index)를 제시해, 100이 리그 평균, 120이 1σ 위, 140이 2σ 위를 의미하도록 했다.

실증 결과는 두 가지 측면에서 의미가 있다. 첫째, 코어스 필드·그레이트 아메리칸 볼파크 등 전통적인 ‘공격 친화적’ 구장은 높은 β_park와 양의 Index를 보였으며, 오라클 파크·T‑Mobile 파크는 낮은 값을 나타냈다. 이는 기존 MLB 공식 파크 지표와 높은 상관관계를 보이며, 모델의 타당성을 뒷받침한다. 둘째, 팀 수비 효과는 DRS·UZR·Def와 비교했을 때 일관된 순위를 보여준다. 특히 2021년 이후 시프트 제한 정책이 도입된 뒤, 수비 지표들의 분산이 감소하고, 본 모델의 β_def도 평균에 가까워지는 경향이 관찰되었다. 이는 수비 전략이 데이터 기반 포지셔닝으로 전환되면서 팀 간 차이가 축소되고 있음을 시사한다.

방법론적 강점은 (1) 접촉 품질을 EV·LA라는 물리적 변수로 직접 통제함으로써 외생적 편향을 최소화하고, (2) 잔차를 이용해 볼파크와 수비를 동시에 추정함으로써 다중공선성 문제를 회피한다는 점이다. 또한, 총루타라는 연속형 결과를 사용해 아웃 기반 지표보다 라인드라이브·홈런 등 고가치 타구를 더 정밀히 반영한다.

하지만 몇 가지 제한점도 존재한다. 첫째, EV·LA 격자를 3 mph·3°로 설정했는데, 이 해상도가 너무 coarse하면 미세한 접촉 차이를 놓칠 수 있다. 둘째, 모델은 수비를 ‘볼파크와 반대 부호’로 단순화했으며, 수비팀 간 상호작용(예: 특정 구장에 특화된 수비 전략)이나 포수·투수의 방어적 역할을 포함하지 않는다. 셋째, 잔차에 남는 랜덤 변동을 완전히 평균화한다는 가정이 실제로는 비정규적 오류(예: 급격한 날씨 변화)와 충돌할 가능성이 있다. 향후 연구에서는 (a) EV·LA를 연속 함수로 모델링해 베이지안 스무딩을 적용하고, (b) 수비팀·구장 상호작용 항을 추가해 특수 상황을 포착하며, (c) 날씨·공기밀도 등 외부 요인을 통제 변수로 포함시키는 방안을 검토할 수 있다.

전반적으로, 총루타 잔차 기반 회귀는 볼파크와 수비 효과를 동시에, 그리고 직관적으로 추정할 수 있는 실용적인 도구이며, 기존 복잡한 트래킹 기반 수비 지표와도 보완적인 관계에 있다.

볼파크와 수비 효과를 동시에 추정하는 총루타 잔차 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기