[세이버메트릭스] RE(Run Expectancy)와 WE(Win Expectancy) : Holliday의 에러는 얼마나 치명적이었나?
Sabermetrics_Stats 2009. 10. 20. 01:43 |
NLDS 2차전, 9회말 투아웃에서... Holliday가 공을 떨어뜨리는 장면.
다시 봐도 참 씁쓸하다...
Holliday가 저 공을 잡았다면, 물론 2차전은 Cardinals의 승리가 되었을 것이고, NLDS는 1-1이 되어 그 향방을 알 수 없게 되었을 것이다. 하지만, 한편으로 생각해 보면, 이 에러 뒤에도 Cardinals에게는 아직 기회가 있었다. 다음 타자를 아웃으로 처리하면 그만이었던 것이다. 하지만 Ryan Franklin은 후속타자들을 모두 출루시켜 결국 역전을 허용하고 말았다. 과연 Holliday의 에러는 얼마나 치명적인 피해를 입힌 것일까? Holliday 때문에 졌다고 말해도 되는 것일까?
아래의 논의는 Tom Tango 외 2인의 <The Book> 중 1장 "Toolshed" 편의 도움을 많이 받았음을 밝혀둔다.
1. 24가지의 상황
타자가 타석에 들어서서, 투수가 초구를 던지기 직전의 상황을 생각해 보자. 물론 도루와 같은 주루플레이도 일어나기 전이다. 얼마나 많은 상황이 가능할까?
우선 아웃 카운트를 생각할 수 있을 것이다. 노아웃, 1아웃, 2아웃의 세 가지가 있다. 3아웃에는 타자가 타석에 들어서지 않으므로 고려 대상이 아니다.
다음으로 어떤 누상에 주자가 있는지의 여부를 생각할 수 있을 것이다. 각각의 누상에 주자가 있을 수도 있고 없을 수도 있으므로, 1루, 2루, 3루에 대해 각각 "주자 있음"과 "주자 없음"의 두 가지 경우가 존재하는 셈이다.
아웃카운트와 주자에 대해 경우의 수를 계산해 보면,
3 x 2 x 2 x 2 = 24
이것이 타자가 타석에 들어섰을 때, 가능한 모든 상황의 갯수이다.
2. 24가지의 상황에 대한 Run Expectancy (기대 득점)
Tom Tango와 동료들은 1999년부터 2002년까지 4년간의 메이저리그 경기 기록을 모두 모아서, 위의 24가지 상황별로 정리하였다. 그리고, 각각의 상황에서, 해당 이닝이 3아웃으로 종료될 때까지 공격측이 득점한 점수를 모두 모아 보았다.
예를 들어, 무사 주자 1루의 상황은 4년 동안 44,552번 등장했는데, 이 상황 이후 해당 이닝이 종료될 때까지 공격측이 득점한 점수를 모두 더했더니 42,432점이었다. 그렇다면, 무사 주자 1루에서의 득점 평균은 아래와 같이 구할 수 있을 것이다.
42,432 / 44,552 = 0.953
이것이 바로 무사 주자 1루 상황의 기대 득점, 즉 Run Expectancy 이다. 철저하게 귀납적으로 계산된 결과임을 기억하자.
24개의 상황에 대해 모두 계산하여 표를 만든 결과는 아래와 같다.
원본 링크
RE 99-02 | 0 | 1 | 2 |
Empty | 0.555 | 0.297 | 0.117 |
1st | 0.953 | 0.573 | 0.251 |
2nd | 1.189 | 0.725 | 0.344 |
3rd | 1.482 | 0.983 | 0.387 |
1st_2nd | 1.573 | 0.971 | 0.466 |
1st_3rd | 1.904 | 1.243 | 0.538 |
2nd_3rd | 2.052 | 1.467 | 0.634 |
Loaded | 2.417 | 1.65 | 0.815 |
3. 홈런 1개의 Run Value, 아웃 1개의 Run Value
이제, 홈런이나 아웃과 같은 개별 사건이 공격측의 득점에 어떤 영향을 미치는지를 살펴보자.
무사에 주자 없는 상황에서, 타자가 타석에 들어섰다. 이 이닝에서 공격측의 평균 득점, 혹은 이 상황의 기대 득점은 위의 표에서 알 수 있듯이 0.555 이다. 이 때, 타자가 솔로 홈런을 쳤다면, 공격측은 1점을 득점하고, 상황은 아까와 똑같은 "무사 주자 없음"으로 돌아간다. 이 상황에서 순수한 기대 득점은 여전히 0.555 이지만, 이미 1점을 득점했으므로 이제 기대 득점은 0.555 + 1 = 1.555가 된다.
이 경우 순수한 홈런의 득점 가치(Run Value)는 어떻게 될까? 홈런의 "순수한 가치"는 해당 상황의 메이저리그 평균, 즉 보통의 타자가 보통의 방법으로 공격했을 때보다 몇 점이나 더 팀 득점에 "기여" 했는지를 평가하는 것이므로, "기말 기대 득점 - 기초 기대 득점 = 해당 사건의 순수한 가치"로 계산할 수 있다. 따라서, 이 경우는 1.555 - 0.555 = 1 이다. "솔로 홈런이 1점이니 당연한 결과가 아닌가?" 라고 생각하시는 분들이 계시겠지만... 이렇게 계산 결과와 상식이 일치하는 경우는 사실 얼마 되지 않는다.
이번에는 2사 주자 1, 3루인 상황을 가정해 보자. 이 상황의 Run Expectancy는 위의 표에서 알 수 있듯이 0.538 이다. 여기에서 타자가 3점 홈런을 쳤다면, 공격측은 3점을 득점하고 상황은 2사 주자 없음으로 바뀐다. "2사 주자 없음"의 기대 득점은 위의 표에서 0.117 이므로, 기말 기대 득점은 3 + 0.117 = 3.117 이다. 이 경우 순수한 홈런의 가치는? 3.117 (기말 기대 득점) - 0.538 (기초 기대 득점) = 2.579 이다.
3점 홈런을 쳤는데 왜 홈런의 가치가 3점이 아니고 2.579 일까? 아까 무사 주자 없음에서 솔로 홈런을 쳤을 때는 정확히 1점의 가치가 있다고 했는데... 도대체 무슨 차이가 있는 것일까?
무사 주자 없음의 상황에서 솔로 홈런을 치면 그 뒤에도 무사 주자 없음으로 같은 상황이 된다. 즉 점수가 났다는 것 이외에는 바뀐 것이 없는 것이다. 하지만, 2사 주자 1,3루에서 보통의 타자가 보통의 방법으로 공격을 했을 경우 평균적으로 0.538점을 득점하는 데 반해서, 3점 홈런을 친 후 2사 주자 없음으로 바뀌면 이제부터 기대할 수 있는 추가득점은 0.117점으로 크게 줄어든다. 메이저리그는 이 상황에서 평균 0.538점을 득점하지만, 홈런으로 인해 3점을 득점한 후 평균 0.117점을 추가득점하는 상황으로 바뀐 것이다. 위에서 이야기했듯이, "순수한 가치"는 평균적인 상황에 비해 팀 득점에 얼마나 기여를 했는지를 나타내는 것이므로, 기말에서 기초를 뺀 2.579가 이 경우의 순수한 3점 홈런의 가치가 된다.
이런 방법으로, 24가지의 상황에 대해 홈런의 순수한 가치를 모두 계산할 수 있을 것이다. 또한, 메이저리그에서 실제로 홈런이 발생한 상황이 24가지의 상황 중 어디에 해당하는지를 일일이 통계를 낸다면, 가중 평균을 구할 수 있을 것이다.
예를 들면, 1999-2002년의 4년 동안 무사 주자 없음 상황에서의 솔로 홈런은 5518번 나왔으며, 이 경우 솔로 홈런의 Run Value는 1 이다. 한편, 2사 주자 1,3루 상황에서의 3점 홈런은 312번 나왔으며, 이 경우 3점 홈런의 Run Value는 2.579 이다. 이런 식으로 24개의 상황을 전부 조사해서 가중 평균을 구하면 아래와 같이 계산할 수 있을 것이다.
[(1 x 5518) + ... + (2.579 x 312) + ... ] / (전체 홈런 수) = 1.397
24개의 모든 상황에 대한 표는 <The Book>에 실려 있으므로 참고하시기 바란다.
아래는 Tom Tango에 의한 Run Value 가중평균 계산 결과 중 일부를 소개한 것이다.
3루타 1.070
2루타 0.776
1루타 0.475
에러로 출루 0.508
몸에 맞는 공 0.352
볼넷(고의사구 제외) 0.323
폭투 0.266
도루 성공 0.175
일반적인 아웃 1개 -0.299
삼진아웃 -0.301
도루실패 -0.467
4. Scoring Distribution (득점 분포)
Tom Tango와 그의 동료들은 여기에서 그치지 않고, 지금까지 얻은 결과들을 바탕으로 Markov 연쇄모형(Markov Chains)을 이용하여 24개의 상황에 대한 기대 득점의 분포를 계산하였다. Markov Chains에 대한 자세한 설명을 여기서 다루는 것은 내 능력을 완전히 벗어나는 것으로... 관심 있으신 분들은 통계학 혹은 계량경제학 관련 서적이나 위키피디아 영문 링크를 참고하시기 바란다. 한글로 된 좋은 링크를 소개하기 위해 열심히 웹서핑을 했으나 찾는 데 실패했다. -_-;;; 솔직히 나 자신도 Markov 연쇄모형을 제대로 이해하고 있는 것 같지가 않다...
24개의 상황에 대한 표를 여기에 소개하기는 타이핑하기도 너무 힘들거니와 저작권법 위반이 될 것이다. 간단히 한 가지 경우만 소개하자면... 게임 당 평균 5점씩 득점하는 리그를 가정할 때, 무사 1, 2루에서의 기대 득점 분포는 다음과 같다.
0점 : 35.3%, 1점 : 22.0%, 2점 : 16.2%, 3점 : 13.1%, 4점 : 7.0%, 5점 이상 : 6.3%
Markov 연쇄모형의 강력함은 가정을 바꾸는 것에 따라서 계산 결과를 자유자재로 바꿀 수 있다는 것이다. 위의 경우에서, 보다 강력한 투수가 마운드에 등장하여 공격 팀의 득점 예상 수준이 게임당 5점에서 게임당 3.2점으로 떨어졌다고 하자. (
0점 : 41.7%, 1점 : 22.8%, 2점 : 16.2%, 3점 : 11.0%, 4점 : 5.0%, 5점 이상 : 3.4%
확실히, 득점 특히 다득점 확률이 감소하고 있음을 알 수 있다.
타자를 리그 평균 타자에서 Albert Pujols로 바꾸는 등의 변화에 대해서도, 마찬가지로 득점 분포의 변화를 계산해 낼 수 있다.
5. Win Expectancy (기대 승률)
야구에서 이기기 위한 방법은 간단하다. 경기가 끝날 때까지 상대 팀보다 더 많이 득점하면 된다. 그렇다면, 특정 이닝의 특정 상황에서 홈팀이 이길 확률을 구하려면 어떻게 해야 할까? 현재 스코어를 고려하여, 경기가 끝날 때까지 홈팀이 원정팀보다 많이 득점할 확률을 계산하면 될 것이다. 앞에서 살펴본 Markov 연쇄모형을 이용하면, 어떠한 상황이라도 계산이 가능하다.
Win Expectancy의 표는 1회초부터 9회말까지 18개의 이닝에 대하여 각각 24개의 상황별로 홈팀의 승리 확률을 구한 것이다. 여기에 다 적기에는 너무 방대한데다가, 그 자체가 저작권법에 저촉되는 행위가 될 것이다. Tom Tango 자신이 인터넷에 공개한 샘플(6회초)만 옮겨 본다.
샘플 페이지 원본
Win Expectancy, by Game State
Inning: 6, Top
1B | 2B | 3B | Out | -4 | -3 | -2 | -1 | Tie | 1 | 2 | 3 | 4 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
— | — | — | 0 | 0.089 | 0.146 | 0.230 | 0.348 | 0.500 | 0.651 | 0.769 | 0.854 | 0.911 |
— | — | — | 1 | 0.097 | 0.158 | 0.249 | 0.375 | 0.534 | 0.690 | 0.802 | 0.879 | 0.929 |
— | — | — | 2 | 0.103 | 0.167 | 0.263 | 0.394 | 0.560 | 0.717 | 0.825 | 0.896 | 0.941 |
1B | — | — | 0 | 0.078 | 0.128 | 0.204 | 0.310 | 0.448 | 0.594 | 0.717 | 0.812 | 0.881 |
1B | — | — | 1 | 0.089 | 0.145 | 0.230 | 0.347 | 0.498 | 0.649 | 0.766 | 0.852 | 0.910 |
1B | — | — | 2 | 0.099 | 0.161 | 0.253 | 0.380 | 0.542 | 0.697 | 0.808 | 0.884 | 0.932 |
— | 2B | — | 0 | 0.069 | 0.114 | 0.182 | 0.280 | 0.410 | 0.557 | 0.689 | 0.793 | 0.868 |
— | 2B | — | 1 | 0.083 | 0.136 | 0.216 | 0.327 | 0.473 | 0.625 | 0.749 | 0.840 | 0.902 |
— | 2B | — | 2 | 0.095 | 0.155 | 0.244 | 0.368 | 0.526 | 0.682 | 0.797 | 0.876 | 0.928 |
— | — | 3B | 0 | 0.058 | 0.098 | 0.158 | 0.247 | 0.369 | 0.517 | 0.662 | 0.774 | 0.856 |
— | — | 3B | 1 | 0.071 | 0.118 | 0.189 | 0.291 | 0.427 | 0.582 | 0.719 | 0.820 | 0.889 |
— | — | 3B | 2 | 0.093 | 0.152 | 0.240 | 0.362 | 0.519 | 0.675 | 0.793 | 0.873 | 0.926 |
1B | 2B | — | 0 | 0.062 | 0.102 | 0.164 | 0.253 | 0.372 | 0.506 | 0.633 | 0.742 | 0.827 |
1B | 2B | — | 1 | 0.078 | 0.127 | 0.202 | 0.308 | 0.445 | 0.590 | 0.711 | 0.806 | 0.877 |
1B | 2B | — | 2 | 0.092 | 0.151 | 0.238 | 0.358 | 0.513 | 0.665 | 0.780 | 0.862 | 0.917 |
1B | — | 3B | 0 | 0.051 | 0.085 | 0.139 | 0.218 | 0.327 | 0.463 | 0.602 | 0.720 | 0.813 |
1B | — | 3B | 1 | 0.067 | 0.111 | 0.178 | 0.274 | 0.402 | 0.548 | 0.682 | 0.786 | 0.864 |
1B | — | 3B | 2 | 0.089 | 0.146 | 0.231 | 0.349 | 0.500 | 0.652 | 0.770 | 0.855 | 0.912 |
— | 2B | 3B | 0 | 0.046 | 0.078 | 0.127 | 0.201 | 0.303 | 0.431 | 0.569 | 0.695 | 0.795 |
— | 2B | 3B | 1 | 0.062 | 0.102 | 0.165 | 0.255 | 0.377 | 0.517 | 0.652 | 0.764 | 0.848 |
— | 2B | 3B | 2 | 0.087 | 0.143 | 0.226 | 0.341 | 0.490 | 0.639 | 0.757 | 0.845 | 0.906 |
1B | 2B | 3B | 0 | 0.042 | 0.071 | 0.116 | 0.183 | 0.277 | 0.395 | 0.523 | 0.644 | 0.748 |
1B | 2B | 3B | 1 | 0.060 | 0.099 | 0.159 | 0.245 | 0.362 | 0.495 | 0.622 | 0.731 | 0.818 |
1B | 2B | 3B | 2 | 0.084 | 0.137 | 0.217 | 0.328 | 0.471 | 0.617 | 0.733 | 0.823 | 0.888 |
이 표는 홈팀의 입장에서 만들어진 것이다. 즉, 6회초에 동점이고 무사에 주자가 없는 경우(위 표의 빨간색 글씨), 홈팀이 이 경기를 이길 확률은 정확히 0.5 이다. 하지만, 홈팀이 원정팀에게 1점 뒤진 상태에서 2사 3루의 상황을 맞이한 경우(위 표의 파란색 글씨), 홈팀이 최종적으로 이 경기를 이길 확률은 0.362 로 내려간다.
이 표는 평균 5점을 득점하는 리그를 기준으로 만들어진 것이며, 양 팀 선수들의 능력이 모두 똑같다고 가정한 것이다. 투수와 타자의 능력, 야수들의 수비력, 구장 효과 등을 감안하여 보정해 주면, 더욱 정확도가 올라가게 된다.
6. 다시 처음으로 돌아가서... Holliday의 에러는 얼마나 치명적이었나???
이제 위에서 본 Win Expectancy를 바탕으로, NLDS 2차전에서의 Matt Holliday의 에러가 얼마나 치명적이었는지를 살펴보자.
Fangraphs는 매 게임별로 순간순간 Win Expectancy가 어떻게 변했는지를 거의 실시간으로 보여주는 훌륭한 시스템을 가지고 있다. 게다가 이 기대 승률은 리그 평균 득점을 반영하여 보정도 되어 있다. (이 사이트의 장점이나 활용도를 열거하자면 적어도 100가지는 꼽을 수 있을 것이다.)
NLDS 2차전의 기대 승률이 어떻게 변했는지 play by play로 보도록 하자. 여기를 클릭...!!
표를 보는 방법은 다음과 같다. 표에서 "WE" 열에 나타난 퍼센티지가 해당 플레이가 끝난 직후의 홈팀 기대 승률이다. 즉, 1회초가 시작되고 Julio Lugo가 아웃된 직후의 홈팀 기대 승률은 52.1%이며, Ryan과 Pujols까지 삼자범퇴 된 직후의 홈팀 기대 승률은 54.5%까지 올라가 있는 것이다.
이제 쭉... 내려가서 9회말로 가 보자. Manny Ramirez가 아웃되어 2사 주자 없음의 상황이 되고 James Loney가 타석에 들어섰을 때, Dodgers가 이길 확률은 4.1%에 불과하였다. 여기서 Loney는 좌익수 쪽으로 평범한 라인드라이브성 플라이를 날렸는데, Holliday가 이 공을 잡지 못하고 에러를 내면서 2루까지 출루하게 된다. 이 사건 직후 Dodgers가 이길 확률은 13.3%로 올라갔다. 이 숫자에 주목하시기 바란다. 치명적인 에러를 범했음에도 불구하고, Cardinals가 이길 확률은 여전히 86.7%로 매우 높은 상태였다는 것이다...!!!! 이렇게 높은 확률을 누가 다 까먹었을까? Ryan Franklin이다.
Holliday의 에러로 인해 Cardinals의 승리 확률은 95.9%에서 86.7%로 9.2% 낮아졌을 뿐이다. 여전히 아웃카운트 하나만 잡으면 끝나는 상황이라는 것은 변화가 없었다. 하지만 Franklin은 이후 네 명의 타자를 상대로 아웃을 전혀 잡지 못하고 볼넷 2개와 안타 2개를 내주면서 결국 역전을 허용하고 말았던 것이다.
아래의 그래프는 역시 Fangraphs에서 제공하는, 실시간 기대 승률 변화 그래프이다.
(그림을 클릭하면 크게 볼 수 있음)
9회 중간쯤에 있는, Cardinals 쪽으로 가장 경기가 기울었을 때가 바로 Ramirez 아웃 직후이다. 그 뒤에 살짝 올라간 부분이 바로 Holliday의 에러로 인해 경기가 Dodgers 쪽으로 약간 이동한 것이다. 나머지는 모두 Franklin의 공(?) 이다.
나는 여기에서 Franklin 한 명에게 책임을 뒤집어 씌우거나, Holliday가 잘했다고 칭찬하고자 하는 것이 아니다. 야구는 팀 경기이다. 예를 들어 Cardinals 타선이 2점 정도 더 득점했더라면, 9회에 2점을 주고도 여전히 이길 수 있었을 것이다. 패배의 책임은 팀 전체에게 있는 것이다.
팬의 입장에서 비싼 몸값의 스타 플레이어가 평범한 공을 놓치는 것을 보는 것은 물론 열받는 일이지만, 그 에러의 피해를 기대 승률의 측면에서 보자면 생각보다 훨씬 작은 것이었다. "그래도 Holliday가 공을 잡았다면 게임이 끝나는 것이지 않았는가???"라고 끝까지 주장하시는 분들께는... "만약 Franklin이 Loney를 삼진 처리했다면 애초에 에러가 발생할 리도 없지 않았겠는가??" 라고 반문하고 싶다. 다시 한 번 강조하지만, 패배의 책임은 팀 전체에게 있다. 굳이 가장 책임이 큰 한 명을 꼽으라면 주저하지 않고 Franklin을 선택하겠지만... 누구든 한 명에게만 모든 책임을 뒤집어씌우고 비난하는 것은 전혀 옳지 못하다.
이 글은 한국야구팬사이트에서도 보실 수 있습니다.
Today's Music : Thin Lizzy - The Boys Are Back in Town (Live)
http://www.youtube.com/watch?v=1FmPhJkdTwU
대중음악 역사상 최고의 명곡 중 하나이자, 최고의 라이브 퍼포먼스 중 하나...
(동영상을 직접 붙였더니 RSS Feed에 문제가 생기는 것 같아서... 그냥 링크를 걸었다.)
'Sabermetrics_Stats' 카테고리의 다른 글
[세이버메트릭스] 투수의 가치(Value) : 선발투수의 WAR(Wins Above Replacement Level) 계산하기 (9) | 2009.12.07 |
---|---|
[세이버메트릭스] 투수의 실점 방어 능력을 평가하기 : ERA, FIP, xFIP, tRA, tRA* (14) | 2009.12.01 |
MLB 플레이오프 8개 팀의 간략 분석 및 전망 [수정됨!!!!] (0) | 2009.10.07 |
세이버메트릭스의 매력 (3) | 2009.10.02 |
[세이버메트릭스] 타자의 종합적인 기여 수준, Value 측정하기 : WAR의 계산 (3) | 2009.09.15 |