[세이버메트릭스] Log5 System 및 Pythagorean 승률을 이용한 메이저리그 플레이오프 예측
Sabermetrics_Stats 2011. 9. 30. 18:23 |Bill James는 이미 오래 전에 팀과 팀 간의 단기전 승률을 계산하는 "Log5 System"을 만들어 놓고 있었는데, "Baseball Abstarct 1981"에 처음 발표되었고, 이후 좀 더 일반적인 형태로 확장되었다. 그의 설명에 의하면 이런 이름을 붙인 것은 이 식이 각각의 팀을 승률 5할짜리 팀과 비교했을 때의 상대적인 값으로부터 계산하는 대수 체계(Logarithmic System)이기 때문이라고 한다.
로그 어쩌구 하는 이름도 그렇고, Bill James의 설명도 그렇고, 뭔가 엄청 복잡한 수식이 등장할 것 같지만, 실제 계산식은 무척 단순하고, 로그함수를 계산하는 일도 없다.
예를 들어, 팀 A와 팀 B가 1게임짜리 단판 승부를 벌인다고 치자. 종목은 꼭 야구가 아니더라도 상관은 없는데, 어쨌든 야구라고 치고, 이 둘은 같은 리그에 속해 있다. 해당 리그에서, 팀 A는 현재 6할의 승률을 거두고 있는 반면, B는 4할의 승률을 기록하고 있다. A와 B가 1게임을 했을 때 A가 이길 확률은 얼마일까?
이 계산을 위해서는, 먼저 A팀과 B팀의 log5 값을 구해야 한다. 이를 각각 log5a, log5b 라고 하자.
Bill James가 생각한 log5 값은, 해당 팀의 "Talent" 를 리그 평균에 비해서 상대적으로 나타낸 값이었다. A팀이 리그 전체(리그 평균 승률은 당연히 5할이고, 리그 평균 탤런트 수준도 0.5 이다)를 상대로 6할의 승률을 거두고 있다면, A팀의 상대적인 재능 수준(Talent Level)은 리그 평균에 비해 어느 정도일까? 아래와 같이 계산할 수 있다.
여기에서 0.5는 리그의 평균적인 재능 수준이고, 우변의 0.6은 이 팀의 승률이다.
역으로 이야기하면, 이 식을 만족하는 값을 A팀의 재능 수준, 즉 A팀의 log5 값으로 Bill James가 정의했다 라고 표현할 수 있을 것이다.
위의 식을 log5a에 대해 풀면,
즉, 리그 평균을 0.5라고 했을 때, A팀의 재능 수준은 0.750이다. 뒤집어 이야기하면, 재능 0.750짜리 팀이 재능 0.5짜리 팀(혹은 평균이 0.5인 리그 전체)을 상대로 경기를 하면 승률은 0.6, 즉 60%라는 것이다.
같은 방법으로, Log5b도 구해 보면,
동일한 식을 이용하여, 이제 A팀과 B팀이 단판 승부를 벌였을 때 각각의 승률을 예측할 수 있다.
A팀이 B팀에게 이길 확률을 Pab라고 하면,
처음의 식과 동일한 식에서, 리그 평균을 의미하던 0.500 대신 log5b, 즉 B팀의 재능 수준을 대입한 것이다. 계산 결과는 A팀이 이길 확률이 69.2%임을 보여준다.
같은 방법으로, B팀이 A팀에게 이길 확률을 계산하면, 30.8%이다.
보다 간단하게 계산할 수 있는 방법은 없을까?
리그 내에서 A팀의 승률을 Pa, B팀의 승률을 Pb라고 하여 식을 정리해 보자.
이 식을 log5a에 대하여 정리하면,
마찬가지로, log5b에 대하여 정리하면,
이제, 이 식들을 넣어서 Pab에 대하여 정리하면 아래와 같이 된다.
log5 등 불편한 항들이 사라지고 A, B팀의 승률만 남았다. 즉, 두 팀의 리그 내 승률만 알면 두 팀간 대결에서의 기대 승률을 계산할 수 있음을 알 수 있다.
이제 위의 식을 가지고 실습을 해 보자.
메이저리그는 내일부터 Division Series에 돌입한다. 8개 팀이 2팀씩 5전 3선승제의 단기전을 벌이게 되는 것이다.
페넌트레이스에서의 승패에는 운이 많이 개입하므로, 보다 실제 재능 수준에 가깝게 추정하기 위해, 시즌 득점/실점 자료를 바탕으로 Pythagenpat에 의한 Pythagorean Expectation을 계산하여 해당 팀의 리그 내 승률로 사용하였다. (Pythagorean Expectation은 여기를 참조)
이렇게 계산한 Division Series 예측 결과는 아래와 같다.
Div. Series 기대승률은 3-0, 3-1, 3-2 승리 확률을 합산한 것이다.
3-0, 3-1, 3-2는 각각 어떻게 구할까? 고등학교 수학에서 배우는 조합을 이용하여 계산하면 된다.
위쪽의 예와 동일하게, 한 번의 대결에서 A팀이 B팀을 이길 확률을 Pab, B팀이 이길 확률을 Pba라고 하면, n차전에서 시리즈가 A팀의 승리로 끝날 확률은 아래와 같다.
예를 들어, Cardinals가 Phillies에게 4경기만에 3-1로 승리하고 NLCS에 진출할 확률을 계산하면
이렇게 되는 것이다.
참고 : 위 식에서 "(n-1)C2"가 되는 이유는? 마지막 게임은 무조건 해당 팀이 이기게 되므로, 나머지 경기 중에서 두 게임을 이기는 경우의 수를 구하면 되는 것이다.
물론, 플레이오프에서는 5선발을 사용하지 않는 등 정규시즌과는 다른 로스터 운용을 하게 되므로, 실제로는 각 팀의 기대승률 자체가 변하게 되어, 위의 결과에서 오차가 생기게 된다. 하지만, 대략적인 전력상의 우열을 살펴보는 데에는 이정도로도 충분할 것이다.
P.S. 혹시 Bill James가 직접 출판했던 시절의 Baseball Abstract (1977년부터 81년까지)를 구할 수 있는 방법을 아시면 알려 주시길... 가끔 이베이에 올라오는 것 같기는 한데...
Today's Music : Tori Amos - Winter (Live 1992)
중고등학교때 헤비메틀을 많이 듣긴 했지만(팝음악을 들으면 나약한 음악이라고 구박을 받던 시절이었다), 사실 돌이켜보면, 사춘기 소년의 감성을 지배했던 음악은, 이런 곡들이었다. 십 몇 년을 들어도 질리지 않는 곡이다. 그다지 이쁘다고 할 수는 없는 Tori Amos의 얼굴이 너무 크게 잡혀서 약간 부담스럽긴 하지만... -_-;;;
'Sabermetrics_Stats' 카테고리의 다른 글
Theo Epstein 단장 이적의 공정한 대가는? (24) | 2011.10.18 |
---|---|
[세이버메트릭스] 스탯은 얼마나 믿을 수 있는가: SSS(Small Sample Size)의 문제 (3) | 2010.09.16 |
[세이버메트릭스] 그라운드볼의 효과(2) (3) | 2010.03.25 |
[세이버메트릭스] 그라운드볼의 효과(1) (3) | 2010.03.11 |
SIERA(Skill-Interactive ERA) : 새로운 투수 스탯의 탄생 (13) | 2010.02.19 |