타격 스탯과 Replacement Level에 이어, 이번에는 수비 스탯을 살펴보고자 한다.


1. FPct : Fielding Percentage

가장 단순하고 오랜 역사를 가지고 있으나 그만큼 엉성한 스탯이다. 단순히 해당 수비수가 얼마나 에러를 안 내고 수비했는지를 보여준다. 식은 아래와 같다.

FPct = (A+PO)/(A+PO+E)
A: Assists(다른 곳에서 아웃이 될 수 있도록 공을 던져준 것)
PO: Putouts(수비수 스스로 아웃을 기록한 것)
E: Error

당연히 에러를 안 내는 것이 좋은 수비이기는 하나... 에러를 안 내는 것이 전부가 아니라는 게 문제이다. 예를 들어, 수비수가 아무 것도 안 하고 가만히 서 있기만 해도 위의 식에 의하면 1.000으로 퍼펙트한 FPct를 얻을 수 있다. 날아오는 공에 손대지 않고 계속 가만히 있으면 모든 공이 다 안타로 처리될 뿐, 수비수의 에러가 되지는 않기 때문이다. 즉, 이 스탯은 단지 에러 발생만을 체크할 뿐, 수비수가 얼마나 넓은 범위를 커버하고 있는지 등에 대해서는 알 길이 없다.


2. RF : Range Factor

RF는 Bill James의 작품이다. FPct와는 달리 수비수가 실제로 얼마나 아웃을 만들기 위한 플레이에 관여했는지를 측정하기 위해 만들어졌다. 식은 아래와 같다.

RF = (PO+A)*9/Inn
Inn: Innings Played

단순한 식으로 계산이 쉽다는 막강한 장점이 있긴 한데... 너무 단순하다는 것도 문제가 된다. 실제로 몇 번의 수비 기회가 있었는지를 따지지 않고 결과적으로 아웃이 되거나 어시스트가 된 숫자만을 따지다 보니... 단지 우연히 많은 공이 자신에게 날아왔을 뿐인 수비수의 경우 본의 아니게(?) 좋은 RF 값을 가지게 된다. 게다가, 이름에서 알 수 있듯이 수비수의 수비 범위(Range)를 평가하기 위해 고안되었음에도 불구하고, 병살과 같이 Range와 별 상관없는 아웃을 구분하지 않음으로써 오차를 발생시키고 있다.


3. ZR : Zone Rating

Zone Rating은 80년대 말에 STAT,Inc.의 John Dewan에 의해 개발되었으며, 이후 2000년대 초반이 될 때까지 거의 유일한 "쓸만한 수비 스탯"으로 널리 사용되어 왔다.

먼저 아래의 그림을 보자.

(그림을 클릭하면 크게 볼 수 있음)

우선 필드를 C~X까지 22개의 구역으로 나눈다. (A, B, Y, Z는 파울지역이다)
다음 수비수의 포지션에 따라 각 구역을 "할당"한다.

내야와 외야를 나눠서 보는데, 내야수는 그라운드볼에만 책임이 있는 것으로 간주한다.
1루수는 V~X, 2루수는 O~T, 유격수는 H~L, 3루수는 C~F 지역으로 굴러가는 그라운드볼에 대해 각각 책임을 져야 하는 것이다. 여기서 G, N, U 등의 구역은 아무에게도 책임이 없음을 알 수 있다. 즉, 수비가 어찌할 수 없는 타구가 있다는 점을 인정하는 것이다.

한편, 외야수의 경우는 일정 거리 이상 날아간 라인드라이브와 플라이볼에 대해 책임이 있는 것으로 본다. 좌익수와 우익수는 그들의 구역으로 날아간 공 중에서 280~340 ft 사이에 떨어지는 라인드라이브와, 200 ft 이상 날아간 플라이볼을 처리해야 한다. 중견수는 자기 구역에 떨어지는 공 중에서 300~370 ft의 라인드라이브와 200 ft 이상의 플라이볼을 처리해야 한다. 이들의 수비 구역은 좌익수의 경우 F~H의 라인드라이브와 C~I의 플라이볼, 중견수의 경우 L~O의 라인드라이브와 K~P의 플라이볼, 우익수의 경우 S~U의 라인드라이브와 R~X의 플라이볼이다. 역시 내야와 마찬가지로, 외야에도 아무에게도 책임이 없는 J, Q 구역이 존재한다.

ZR은 기본적으로 각각의 수비수가 자신의 수비 구역에 떨어지는 공 중에서 얼마만큼을 아웃으로 처리했는가의 비율이 된다. 즉,

ZR = 자기 구역에서 아웃 처리한 공/자기 구역에 떨어진 공

그런데 수비 쉬프트 같은 것이 존재하므로, 어떤 때에는 자기 구역이 아닌 곳에서도 아웃을 잡아낼 때가 있을 것이다. 이런 경우는 자기 구역에서 아웃을 처리한 것처럼 간주하여 계산한다. 즉, 자기 구역 이외의 필드에서 아웃을 1개 잡았다면, 분모와 분자에 모두 1을 더해주는 것이다. 이런 방식은 여러 문제점을 야기하는데... 다른 구역에서 아웃을 잡을 정도로 수비 범위가 넓은 수비수가 그 능력을 충분히 인정받지 못하는 결과를 낳게 된다.

그리고, 수비수는 자기 책임 구역 내의 한 점에 서 있다가 공이 날아오면 그 쪽을 향해 뛰어가는 것이므로, 수비수의 정면으로 날아오는 공을 잡는 것과 자기 책임 구역의 맨 구석까지 뛰어가서 다이빙 캐치로 공을 잡는 것은 수비 난이도에 있어서 차원이 다르다고 할 수 있다. 그러나, ZR에서는 이러한 부분이 전혀 고려되지 않는다.

ZR에 대한 자세한 설명은 아래 링크를 참조.
http://www.baseballthinkfactory.org/files/dialed_in/discussion/what_is_zone_rating/


4. UZR : Ultimate Zone Rating

UZR은 ZR의 단점을 보완하기 위하여 Mitchel Lichtman이 개발한 것이다. 그는 인터넷에서 "MGL"이라는 필명으로 잘 알려져 있으며, <The Book>의 공동 저자이기도 하다.


(그림을 클릭하면 크게 볼 수 있음)

UZR은 위의 다이어그램에서 64개의 구역(Zone)을 이용한다. 이것은 모든 페어 지역과 1, 3루 주변의 파울 지역을 포함하는 것이다. 내야수는 그라운드볼에만 책임이 있고, 라인드라이브와 플라이볼은 외야수의 몫이라는 점은 기존의 ZR와 동일하다. 그러나, ZR과 비교하여 가장 큰 차이는, ZR이 단순히 어떤 지역에 날아간 타구의 갯수만을 가지고 계산하는 데 비해, UZR은 특정 구역에 떨어진 공이 얼마만큼의 가치를 가지는가를 점수로 환산한 값(Average Run Value)을 반영하여 계산한다는 것이다. (여기에는 각 구역에 떨어지는 공에 대하여 수비 난이도가 제각기 다르다는, 어찌보면 당연한 생각이 들어가 있다.) 따라서, ZR이 단순히 0과 1 사이의 값을 가지는 데 비해, UZR은 점수(Runs)로 나타나게 된다. 리그 평균은 0점이며, 마이너스는 평균 이하, 플러스는 평균 이상을 의미한다.

예를 들어, Yankees의 Derek Jeter는 2005년 AL 유격수 골드글러브를 수상하였다. 그러나, UZR에 의하면 그의 2005년 유격수 수비는 -12.6으로 나타나고 있는데, 이는 Jeter의 좋지 않은 수비로 인해 평균적인 유격수에 비해 2005년 시즌에 소속팀이 12.6점 더 실점하게 만들었다는 의미이다. Jeter는 오랜 세월동안 세이버메트리션들의 단골 공격대상이었는데, 이는 UZR로 보아도 별로 다르지 않다.

UZR은 2000년대 초에 창안된 이후 MGL 본인에 의해 몇 가지 중요한 부분들이 보완되어 왔는데, 이를테면 구장 효과(park effect)를 적용하여 보정하고, 좌타/우타의 타구 방향이 다른 것을 적용하였으며, 타구의 속도까지 측정하여 반영하였다. 뿐만 아니라, 투수의 그라운드볼/플라이볼 성향이 미치는 영향도 고려하였고, 특정 주자와 아웃의 상황에 따라 타자의 타격 방향이 영향을 받는 것(예를 들어 무사 주자 없음일 때와 무사 주자 1루일 때 타구의 경향이 달라지는 것 등)까지도 반영시켰다. 이쯤되면 꽤 훌륭하게 업그레이드가 된 셈이다. 다만 포수의 수비에 대해서는 아직 좀 부족한 부분이 있는데... 이쪽으로는 Tom Tango 등에 의해 현재도 활발하게 연구가 진행되고 있다.

업그레이드 UZR에 대해서는 아래 참조.
http://www.baseballthinkfactory.org/files/primate_studies/discussion/lichtman_2003-03-14_0/
http://www.baseballthinkfactory.org/files/primate_studies/discussion/lichtman_2003-03-21_0/


5. TZ (혹은 TZR) : Total Zone

Total Zone은 Sean Smith에 의해 탄생하였다. Sean Smith는 대표적인 플레이어 퍼포먼스 예상 툴인 CHONE Projection으로 특히 유명하다.

TZ도 Zone Rating을 개량하고자 하는 시도에 의해 탄생한 것이다. 타구가 누구의 수비 구역에 떨어졌는지, 그리고 해당 수비수가 그 공을 처리했는지가 주 관심 대상이 된다. 그 결과값은 UZR과 유사하게 리그 평균 수비수에 비해 몇 점이나 더 실점을 막았는지, 혹은 실점을 허용했는지를 숫자로 표시해 준다. 어느 해의 TZ값이 +10이라면 1년 동안 수비를 통해 팀이 실점을 10점 덜 하도록 기여했다는 의미이다.

Sean Smith는 그의 사이트(Baseball Projection)에서 TZ를 바로 확인할 수 있도록 작업중이라고 하는데... 아직 완성되지 않은 것 같다. 그는 Retrosheet의 게임 데이터를 가지고 1956년부터 지금까지의 모든 플레이어에 대해 TZ 값을 계산하는 엽기적인 노가다를 하고 있는데, 노가다의 내용에 대해서는 아래 링크를 참고하기 바란다.
http://www.hardballtimes.com/main/article/measuring-defense-for-players-back-to-1956/

노가다의 결과가 궁금하지 않은가? 1986년까지의 결과가 입력되어 있는 아래 엑셀 파일을 받아서 직접 확인해 보기 바란다. 이런 엄청난 파일이 작성자 본인에 의해 인터넷에 공짜로 공개되어 있다는 것은 정말 감동적인 일이 아닐 수 없다.

한편, Sean Smith는 마이너리그 플레이어들에 대해서도 TZ를 적용하는 방대한 작업을 수행하였는데, 그 결과물은 THT의 동료 세이버메트리션인 Jeff Sackmann의 사이트인 Minor League Splits에서 확인할 수 있다.

TZ는 UZR과의 통계적 상관 관계가 괜찮은 편으로 나타나고 있다. 재미있는 것은 Sean Smith 자신도 UZR이 가장 나은 수비 스탯이라고 생각한다는 점이다.
http://www.hardballtimes.com/main/article/measuring-defense-for-players-back-to-1956/


* 참고 : 이후 확인해 본 결과 Sean Smith가 노가다를 완료하여 1871년부터 2008년까지의 모든 자료를 사이트에 업로드해 놓은 것을 발견하였다. PbP 데이터가 없는 1953년 이전 자료에 대해서는 assist, putout, error 등으로 추정했다고 한다. 위의 링크를 클릭하여 Babe Ruth나 Rogers Hornsby와 같은 전설 속의 인물들을 만나 보시기 바란다. 이런 엄청난 자료를 공짜로 접할 수 있는 게 그저 황송할 따름이다...



6. John Dewan's +/- System(Fielding Bible)

ZR의 창시자인 John Dewan은 누구보다도 ZR의 한계를 스스로 잘 알고 있었으므로, 그것을 개량하고자 하는 노력을 계속하게 된다. 그렇게 해서 ZR의 업그레이드 버전으로 내놓은 것이 바로 Plus/Minus System이다.

이 시스템의 기본적인 원리는 UZR과 동일하다. 즉, 각 수비수가 책임을 지게 되는 "영역"이 존재하지만, ZR과 달리 영역의 내부는 동일하지 않으며, 수비하기 쉬운 지역과 어려운 지역이 존재한다. 쉬운 지역에 떨어진 공을 처리하지 못하면 감점되고, 어려운 지역의 공을 처리하면 점수를 얻게 된다. 이 점수는 UZR이나 TZ에서와 마찬가지로, 1년동안 소속팀의 실점을 줄이거나 늘리는 데에 얼마나 기여했는가를 의미한다. 리그 평균은 여기에서도 0점이다.

문제는... 이것이 유료 정보라는 것이다. 인터넷에 샘플로 공개되어 있는 자료는 2005 시즌이 마지막이다. 게다가 시즌이 끝나고 나면 1년간의 데이터를 모아서 자료가 발간되는 구조이므로, 돈을 주고 구해 볼 생각이 있어도 시즌 중의 데이터를 실시간으로 확인하기는 어려울 것이다.

시스템의 기본적인 원리에 대해서는 아래 참조. 이 사이트에서 샘플 자료도 볼 수 있다.
http://www.billjamesonline.net/fieldingbible/overview.asp



정리.

수비 스탯은 타격이나 투수 스탯에 비해 종류도 적고, 여전히 논란의 여지가 많이 남아 있다. UZR이나 TZ, +/- 등에서는 타구의 종류가 상당히 중요하게 취급되는데, 그라운드볼이 아닌 어떤 타구가 라인드라이브인지 플라이볼인지 결정할 때에는 일정 부분 기록자의 주관이 들어갈 수밖에 없다. 각 수비수가 어떤 구역에 책임이 있는지를 설정하는 부분에 대해서도 역시 이견이 있을 수 있으리라고 본다. 게다가, 외야수의 송구 능력이라든지, 포수의 수비 능력 등에 대해서는 어떤 수비 스탯도 아직 명확한 답을 내놓지 못하고 있다.

이러한 여러가지 불완전한 부분에도 불구하고, 수비 스탯은 분명 참고할 만한 가치가 있다. 좋은 수비수와 나쁜 수비수의 차이가 존재함은 명백하다. 과연 특정 수비수의 수비 능력이 리그 평균에 비해 어느 정도인지, 우리가 할 수 있는 범위 안에서 최선을 다해서 사실에 가깝다고 믿어지는 값을 도출하는 것이다.

앞에서 소개한 여러 스탯 중에서, 나는 UZR을 즐겨 사용한다. RF나 ZR은 아쉬운 점이 너무 많으며, TZ나 +/-의 경우는 실시간으로 현재와 과거의 기록을 조회하는 일이 불가능하다. 반면 UZR은 Fangraphs에 가면 2002년부터 오늘까지의 데이터를 무료로 조회할 수 있다. 이쯤 되면 UZR은 선택이라기보다는 필수라고 해야 할 것이다. 다른 대안이 없으니 말이다...

Fangraphs에서 특히 매력적인 것은 UZR/150인데, 해당 포지션에서 한 시즌에 150게임을 뛴다고 가정하고 그에 맞춰 조정한 값을 나타내는 것이다.


추가 정보 : 수비에 대한 또 다른 자료로 David Pinto의 PMR(Probabilistic Model of Range)이라는 것이 있다. 그래프로 수비수의 능력을 보여주는데... 재미있으므로 여기도 한 번 들러 보시길 권한다.
http://www.baseballmusings.com/archives/018666.php

추가 정보 2 : Baseball Prospectus는 FRAR, FRAA와 같은 자체적인 수비 스탯을 가지고 있다. BP 사이트의 정의에 의하면 이들도 역시 특정 수비수의 책임 구역에 떨어지는 공을 그 수비수가 얼마나 처리했느냐를 가지고 계산하는 것으로 되어 있는데, UZR이나 +/- 보다는 신뢰도가 다소 떨어지는 것으로 여겨지고 있다.
신고
Posted by FreeRedbird
이전 포스팅에 이어서, WAR 계산하기 시리즈의 두 번째로, Replacement Level(대체 수준)을 소개하고자 한다. 정말이지... 쓰고 싶은 것은 많은데... 시간이 늘 부족하다.

오늘의 포스팅은, 여러 자료를 활용하였지만, 특히 Baseball Prospectus의 책인 <Baseball between the Numbers>를 많이 참고하여 작성하였음을 미리 밝혀 둔다. 이것은 Baseball Prospectus의 Keith Woolner가 Replacement Level 및 VORP의 원조이기 때문이다.


네이버나 다음 등의 포털에서 Replacement Level을 검색하면, Keith Woolner가 Replacement Level과 VORP를 처음 발표했을 때의 글을 우리말로 번역한 글 정도만 검색되어 나오는 것 같다. 이 포스팅이 가능한 한 좀 더 알기쉬운 우리말 설명이 될 수 있도록 최선을 다 해 보고자 한다.


- 타자의 Replacement Level 구하기 -

무엇이든 객관적으로 비교하고자 한다면 뭔가 절대적인 기준이 필요하다. 제일 먼저 떠오르는 기준은 리그 평균이다. 리그 평균은 쉽계 계산 가능하다는 장점이 있다. 하지만 "리그 평균 성적의 메이저리거"라는 것은 사실 무척 높은 기준이다. Low Minor에 있는 어린 유망주들은 그렇다 치더라도, 메이저리그와 마이너리그를 오가는 수많은 AAAA 플레이어와 저니맨들이 있기 때문이다. 아래의 출루율 그래프을 보자. 이 그림은 The Hardball Times에서 가져온 것이다.

image

이 그래프는 2008년에 110타석 이상을 기록한 선수들을 대상으로 출루율(OBP)을 조사하여 메이저리그와 마이너리그에서 출루율의 분포를 나타낸 것이다. Y축은 퍼센티지이며, 마이너리그는 AAA와 AA만을 대상으로 하였다. (싱글 A에 있는 유망주가 어느날 갑자기 메이저리그에 콜업되거나 할 일은 없으므로, 비교 대상으로 부적절하다.)

위의 그래프에서, 메이저리그의 평균 출루율은 .330~.340 사이에 위치하고 있다. (정확히는 .336 이다.) 그 밑으로 얼마나 많은 플레이어들이 있는지 쉽게 확인할 수 있을 것이다. (빨간색+파란색 하면 메이저리그 평균 이하이면서 현재 메이저리그에서 뛰고 있거나 혹은 AAA, AA에 있으면서 시즌 중 메이저리그에 합류할 가능성이 있는 플레이어들의 합이 된다.) 만약 리그 평균을 기준으로 플레이어를 평가한다면, 무수히 많은 마이너스 값을 얻게 될 것이다. 이것은 보기도 좋지 않거니와, 마이너스 값 때문에 추가적인 분석이나 계산을 수행하기에도 애로사항이 많다.


이러한 필요에 의해서, 소위 "Replacement Level"이라는 개념이 Baseball ProspectusKeith Woolner에 의해 발명되었다. 어쩌면 세이버메트릭스의 역사에서 가장 중요한 사건이라고 할 수도 있을만큼, Replacement Level의 영향력과 파급효과는 막대한 것이었다.

Replacement Level에 대한 Keith Woolner 본인의 정의를 들어 보자. 이하는 <Baseball between the Numbers> 161페이지에 나오는 정의 부분을 그대로 옮긴 것이다.

Replacement Level is the expected level of performance a major league team will receive from one or more of the best available players who can be obtained with minimal expenditure of team resources to substitute for a suddenly unavailable starting player at the same position.

이해를 돕기 위하여 예를 들어 보도록 하겠다.

Cardinals의 주전 우익수는 Ryan Ludwick이다. 어느 날 Ludwick이 수비를 하다가 외야에서 넘어지면서 어딘가 한 군데가 부러져서 1~2개월 정도 결장하게 되었다고 하자. (위의 정의에서 말하는 "suddenly unavailable starting player"이다) Mozeliak 단장은 그의 빈자리를 메꾸기 위해서 AAA에서 외야수 Nick Stavinoha를 메이저리그 로스터로 올려 보낸다. 마이너리그 선수가 메이저리그에 올라가게 되면 자동적으로 리그 최저 임금을 적용 받게 된다. (위의 정의에서 말하는 "obtained with minimal expenditure of team resources"이다) 이제 La Russa 감독은 주전 우익수를 잃어버렸으므로, 우익수 자리에 Ankiel과 Stavinoha, 심지어 Joe Thurston 등을 상황에 따라 적당히 돌려가며 기용할 것이다. (위의 정의에서 말하는 "one or more of the best available players"이다)

최저의 비용으로 대체 선수를 조달하는 방법은 꼭 AAA 선수의 콜업만 있는 것이 아니다. 외야 한 자리를 메꾸기 위해, 현재 집에서 놀고 있는 Jim Edmonds를 잘 꼬셔서 최저연봉 수준으로 계약하여 로스터에 합류시키는 방법도 있다. 혹은 다른 팀의 Waiver Wire를 살펴 보니 마침 Matt Murton 같은 땜빵용으로 적당한 외야수가 웨이버 공시 되어 있었다면, 그를 클레임 해서 데려오는 방법도 가능할 것이다. 몇 주 버티다 보면 부상에서 회복된 Ludwick이 돌아와서 다시 주전 우익수가 될 것이므로, Cardinals는 굳이 다른 구단에서 주전급 우익수를 또 트레이드 해 오지는 않을 것이다.

위에서 언급한 세 가지 방법, 즉 1) AAA 선수의 콜업, 2) 집에서 놀고 있거나 인디 리그에서 뛰고 있는 선수와 계약, 3) 웨이버 클레임 정도가 최저 비용으로 대체 선수를 조달하는 일반적인 방법이 되겠다. 이런 대체 선수는 대개의 경우 혼자서 주전을 맡을 만큼 기량이 뛰어나지 않으므로, 기존의 벤치 멤버들과 섞여서 돌려가며 기용되는 일이 많을 것이다. 이렇게 부상당한 주전 대신 돌아가며 해당 포지션에 기용되는 땜빵 선수들이 집합적으로 내 줄 것이라고 기대하는 퍼포먼스의 수준이 바로 Replacement Level인 것이다.


Keith Woolner와 그의 동료들은 지난 100 년간의 메이저리그 기록(오타가 아니다. 진짜 100년이다!!)을 바탕으로 각 팀에서 주전을 제외한 나머지 선수들이 공격에서 어떠한 성적을 내 왔는지 통계를 내 보았다. 공격의 기여 수준을 측정하는 지표로는 RC/27을 사용하였다. (RC에 대해서는 지난 번 포스팅에서 간략히 설명한 바 있다.) 그 결과... 다음과 같은 결론을 얻었다.

1) 주전 선수와 대체 선수의 타석 수 비율은 대체로 8:2 이다.
2) 평균적인 대체 선수들은 평균적인 주전 선수에 비해 80% 정도의 성적을 냈다. 단, 약간의 예외가 있는데, 포수를 맡은 대체 선수들은 주전의 85% 정도의 성적을 냈으며, 1루수를 맡은 대체 선수들은 75% 정도의 성적을 냈다.

예외 부분은 상식적으로도 어느 정도 납득이 가능하다. 포수의 공격력은 대체로 시원찮으므로 주전과 대체 사이의 공격력 갭이 상대적으로 작을 것이며, 반면 1루수들은 대개 팀의 주포를 맡고 있으므로 주전과 대체 사이의 갭이 클 것이다.


그럼 이러한 Replacement Level이 어느 정도인지를 어떻게 구할 수 있을까? 이에 대해서는 명확히 합의된 바가 없으며, 다양한 아이디어와 공식들이 개발되어 경합하고 있는 상황이다. 다만 여러 연구 결과에 따르면, 여러 방식으로 Replacement Level을 구해 보면 거의 비슷한 결과를 얻게 된다고 한다. 이 글에서는 Replacement Level을 만든 장본인인 Keith Woolner의 공식을 소개하고자 한다.

Keith Woolner와 그의 동료들은 소위 slash stat(AVG/OBP/SLG)을 가지고 Replacement Level을 계산하는 식을 고안하였는데, 그 식은 아래와 같다. 역시 <Baseball bewteen the Numbers>에 소개된 내용이다.


사용자 삽입 이미지

여기서 P는 우리가 구하고자 하는 포인트로 Replacement Level과 리그 평균과의 갭을 의미하며, R은 해당 포지션에서 Replacement Level과 리그 평균과의 퍼포먼스 비율이다. 예를 통해 설명하도록 하겠다.

책에서 사용한 예를 활용하자면, 어느 시즌의 리그 평균 좌익수의 타격 성적이 .270/.340/.430이라고 하자. Replacement Level LF는 주전들에 비해 80% 정도의 퍼포먼스를 낼 것으로 기대되므로, 위의 식에서 R값은 0.8이 된다. 여기에 AVG, OBP, SLG를 각각 대입하면, P=0.033을 얻게 된다. 이 P값을 AVG/OBP/SLG에서 각각 빼 주면, 그게 바로 우리가 찾고자 하는 Replacement Level의 퍼포먼스가 된다. 즉, 그 시즌의 Replacement Level 좌익수의 예상 타격 성적은 .237/.307/.397이다.

시즌과 리그에 따라 약간씩 변동이 있으나, 리그 평균 플레이어의 퍼포먼스와 Replacement Level 플레이어의 퍼포먼스를 비교하면 대략 20점(20 Runs) 차이가 난다. 20점의 차이는 팀의 승패에 어느 정도의 영향을 미칠까? 이전 포스팅 중 Pythagorean Record에 관한 글을 기억하시는지? 그 포스팅에서, 가장 간단한 방법인 10점=1승 으로 계산하여도 오차가 별로 없음을 엑셀 파일을 통해 보여 드린 바 있다. 따라서, 여기에서도 동일하게 10점을 1승으로 생각하면 큰 무리가 없다. 즉, 평균적인 메이저리거와 Replacement Level 플레이어의 차이는, 승 수로 환산하면 약 2승이 되는 것이다.

즉, 어떤 팀이 2루에 리그 평균 2루수를 1년 내내 기용했고, 그 시즌에서 82승 80패를 기록했다고 하자. 만약 그 2루수가 spring training에서 심각한 부상을 당해서 시즌 아웃 되었고, 구단이 금전적 여유가 없어 1년 내내 Replacement Level 2루수들로 돌려막기를 했다면, 그 팀은 아마도 그 시즌에서 80승 82패를 할 것이라는 의미이다.

참고로, 최근에는 리그 평균과 Replacement Level의 차이를 NL에서는 2승, AL에서는 2.5승으로 보는 견해가 어느 정도 지지를 얻고 있음을 밝혀 둔다. 메이저리그에서도 NL과 AL 간의 차이가 있다고 보는 것이다.


- 투수의 Replacement Level 구하기 -

현대 야구에서는 선발투수와 구원투수의 역할이 확실하게 나누어져 있으므로, Replacement Level을 계산할 때에도 둘을 분리하여 구하게 된다.

Keith Woolner는 5인 로테이션이 완성된 1960년대 후반부터 2000년대 초반까지의 실제 메이저리그 기록을 가지고 회귀분석을 하여 아래와 같은 회귀식을 얻었다.

Replacement Level Starter RA = 1.37 x League Average RA - 0.66
Replacement Level Reliever RA = 1.70 x League Average RA - 2.27


여기서 RA는 Run Average로, 평균 실점을 의미한다. ERA가 평균자책인 데 반해, RA는 자책점과 비자책점을 모두 합쳐서 계산한다는 점이 다르다. ERA와 RA 사이에는 경험적으로 ERA = 0.92 x RA 의 관계가 성립하므로, Replacement Level 투수들의 ERA도 예측 가능하다. 반대로 가지고 있는 정보가 ERA밖에 없는 경우에도 Replacement Level의 계산이 가능하다.

예를 들어, 어느 시즌의 선발 투수들의 평균 ERA가 4.5였다고 하자. RA = 4.5/0.92 = 4.89 가 된다. 이 값을 위의 Replacement Level Starter RA 식에 집어 넣으면...  1.37 x 4.89 - 0.66 = 6.04가 된다. 다시 ERA를 구해 보면... 6.04 x 0.92 = 5.56이 된다. 즉 선발 투수들의 평균 ERA가 4.5인 시즌의 Replacement Level 선발 투수는 대략 5.56의 ERA를 가질 것으로 예상할 수 있는 것이다. 물론 평균 RA를 알고 있다면, ERA대신 RA를 사용하는 쪽이 좀 더 정확한 예측이 가능하다.


만약 공격, 수비, 그리고 구원투수들이 모두 리그 평균인 어떤 가상의 팀이 Replacement Level Starter를 선발로 기용하여, 역시 리그 평균 선수들만으로 이루어진 다른 팀을 상대한다면 어떻게 될까? Tom Tango와 같은 세이버메트리션들의 연구 결과에 의하면 이 경우의 승률은 대략 38%로 낮아진다. 또한, 공격, 수비, 선발투수들이 모두 리그 평균이고 불펜이 Replacement Level Reliever들로 구성된 팀이 완전히 리그 평균인 다른 팀을 상대한다면, 이 경우의 기대 승률은 대략 47%가 된다. 선발투수가 구원투수에 비해 얼마나 비중이 큰지 알 수 있는 부분이다.


- VORP(Value Over Replacement Player) -

VORP는, Value Over Replacement Player의 약자로, 특정 플레이어가 Replacement Level 플레이어와 비교하여 얼마만큼의 가치(Value)를 소속팀에 제공해 왔는지를 나타내는 스탯이다. "Value"는 점수로 계산된다. 즉, Replacement Player에 비해 팀에 몇 점의 득점을 기여했는가(타자의 경우) 혹은 몇 점을 덜 실점하도록 기여했는가(투수의 경우) 이다. VORP는 수비에 대해서도 계산할 수가 있다. 어떤 플레이어가 Replacement Player에 비해 수비로 몇 점이나 기여했는지의 데이터를 얻을 수 있다면, 같은 요령으로 계산이 가능하다. 수비로 인한 득실에 대해서는 이 다음 포스팅에서 따로 다룰 예정이므로, 여기에서는 생략하기로 한다.

이 Value를 구하는 이론과 계산식도 여러 가지가 있다. 공격의 경우 RC, EqA 등을 이용하여 구하기도 하는데, 나는 Fangraphs와 Tom Tango의 방식을 따라 wOBA 및 wRAA를 이용하는 방법을 선호하고 있다. 이론적 배경이 간단명료하고 계산이 훨씬 쉽다는 장점이 있기 때문이다. 그러한 장점에도 불구하고 딱히 정확도가 다른 방법에 비해 떨어진다는 생각은 들지 않는다. 일단 wRAA를 구하고, park effect를 적용하여 보정한 다음, 앞에서 언급했듯이 리그 평균 플레이어와 Replacement Player의 공격력은 대략 20점 차이가 나므로 앞의 계산 결과에 20점을 더해주면 된다. 일단 수비까지 설명한 후, WAR 계산을 설명할 때 실제 적용 예와 함께 다시 설명 드리도록 하겠다.  (링크 -  타자의  VORP:WAR 구하기)

투수의 경우, 일반적인 계산식은 아래와 같다. 투수는 실점에 직접적으로 관여(?)하기 때문에, 타자에 비해 계산이 단순한 편이다.
VORP = ((Replacement Level - RA)/9)*Innings Pitched
여기에서는 FIP를 적용하여 RA를 구하게 되는데... 역시 글이 너무 길어지므로 투수에 대해서도 따로 다루도록 하겠다. 나중에 다루겠다고 한 부분이 많은데... 꼭! 하나씩 챙겨서 차례로 다룰 예정이므로, 관심 있으신 분들께서는 자주 들러 주시기 바란다. ^^


VORP의 일반적인 내용에 대해서는 아래 위키 페이지를 참고.
http://en.wikipedia.org/wiki/Value_over_replacement_player

아래는 Keith Woolner의 Replacement Level에 대한 기념비적인 오리지널 원조 글이다. 검색엔진에서 Replacement Level을 검색하면 나오는 글은 대부분 이 글을 한글로 번역한 것이다.
http://www.stathead.com/bbeng/woolner/vorpdescnew.htm

신고
Posted by FreeRedbird

이 블로그에서 트레이드의 이해득실을 계산할 때나 특정 플레이어의 기여도를 비교할 때에 주로 사용한 비교 툴은 WAR(Wins Above Replacement) 였다. 그런데, 생각해보면 세이버메트릭스의 개념에 대해서 자세히 설명한 것은 FIP와 BABIP 정도밖에 없었던 것 같다. 이래가지고서야 WAR를 가지고 아무리 이야기해봤자 결국 잘난척에 불과하지 않을까...라는 생각이 들었다.

그래서 WAR의 개념과 계산 방법을 설명하기로 결심했지만... 문제는 도대체 어디까지 거슬러 올라가야 하는가였다. 이 블로그를 방문하시는 분들께서 스탯에 대해 얼만큼의 지식을 가지고 있는지 알 수도 없고... 결국 이런저런 고민 끝에, OPS와 그 변종들로부터 출발하기로 했다. 나는 Fangraphs와 같이 wRAA를 WAR 계산시 공격력의 척도로 삼고 있으므로, 이 글에서는 wRAA의 계산 방법까지 다뤄 보고자 한다.


요즘도 야구 중계를 보면 사실 타자에 대해 주로 언급되는 스탯은 타율(AVG), 홈런(HR), 타점(RBI)이 고작이다. 우리나라 중계는 물론이거니와 메이저리그 중계라고 해서 크게 다르지는 않은 것 같다. 그나마 OPS가 널리 퍼진 덕에, 출루율(OBP)과 장타율(SLG) 정도를 덤으로 들을 수 있는 정도이다.

타율이나 타점과 같은 석기시대의 스탯들로 타자를 평가하면 문제가 많다는 이유에 대해서는 자세한 설명을 생략하고자 한다. 이전의 FIP나 BABIP에 대한 글 뿐 아니라, 기회가 있을 때마다 같은 말을 반복해왔기 때문이다. 타율은 타자 본인의 능력과 상관없는 많은 요소들, 이를테면 상대팀의 수비 능력과 같은 외부 요인들이 많은 영향을 끼치므로, 타자의 능력을 평가하는 잣대로 쓰기에는 불완전한 부분이 많다는 정도로만 정리하고 넘어 가겠다. 타점은 팀 동료들이 해당 타자 앞에서 얼마나 출루를 해 주느냐에 더욱 크게 좌우되므로, 개인 스탯이라기보다는 팀 스탯에 가까운 숫자라고 할 수 있다. 타자의 생산성을 평가하는 지표로는 역시 낙제점을 면키 어렵다.


1. OPS

세이버메트릭스 최초의 히트작이라고도 할 수 있는 OPS 부터 살펴보자.

OPS는 On base percentage(OBP, 출루율) Plus Slugging percentage(SLG, 장타율)의 약어이다. 따라서 OBP와 SLG만 구할 수 있다면 쉽계 계산된다. 이 둘을 구하는 식은 아래와 같다.

OBP = (H + BB + HBP) / (AB + BB + SF + HBP)
SLG = TB / AB = (1B + 2*2B + 3*3B + 4*HR) / AB


이 둘을 그대로 더한 것이 OPS이다. 즉,

OPS = OBP + SLG

이렇게 된다. OPS가 히트하게 된 데에는 타자의 출루 능력과 장타력을 골고루 평가한다는 내용상의 우수함 뿐 아니라, 계산식이 단순하여 누구나 쉽게 이해하고 계산할 수 있다는 장점도 크게 작용하였다. 이후 보다 정밀한 스탯이 무수히 많이 개발되었지만, 한 눈에 타자의 생산성을 훑어보는 데에는 여전히 요긴하게 쓰이고 있다.


2. OPS+

이후 구장마다 타자에게 유리한 구장이 있고 불리한 구장이 있다는 것을 감안하여, 조정 OPS(OPS+, Adjusted OPS)가 등장하게 된다. OPS+는 구장 효과(Park Factor)를 반영할 뿐 아니라, 100을 평균으로 하여 스케일도 조정되기 때문에, 특정 시즌에 특정 타자가 리그 평균에 비해 얼마나 좋은 활약을 펼쳤는지 알 수 있다. (100보다 큰 숫자는 리그 평균보다 좋은 활약을 했음을 의미하며, 100보다 작으면 그 반대이다. 또한 100에서 멀어질수록 평균과의 차이가 크다.)

계산식은 다음과 같다.

OPS+ = 100 * ((OBP/lgOBP + SLG/lgSLG) - 1)

혹은 구장 효과를 적용하였음을 나타내기 위해 아래와 같이 표현하기도 한다.

OPS+ = 100 * ((OBP/lgOBP + SLG/lgSLG) - 1) / BPF

여기서 BPF는 타자의 Park Factor를 의미한다.


이렇게 되면 꽤 많이 발전한 것 같지만... OPS의 개념 자체에 대한 비판이 이어졌다. OPS이든 OPS+이든 기본적으로 가중치 없이 OBP와 SLG를 더해서 만들어지는 식이라는 점에서는 동일하다. 즉 출루율과 장타율을 동일한 가치로 취급하고 있는 것이다.

이러한 접근에 문제가 있음은 쉽게 알 수 있는데... 리그 평균 OBP와 리그 평균 SLG가 거의 1할 가까이 차이가 나는 데다가, 그 분포도 다른 것이다. 세이버메트리션들은 여기서 좀 더 나아가서, 득점과의 상관 관계를 통계적으로 구해 보았다. (타자가 타격을 하는 목적은 결국 팀이 득점하는 것이며, 그 외의 것은 모두 부수적인 것일 뿐이라는 사실을 기억할 필요가 있다.) 그 결과, 어떤 연구에서도 출루율과 득점과의 상관 관계(correlation)가 장타율과 득점과의 상관 관계보다 높게 나왔다. 이는 OPS와 같은 스탯을 계산할 때 출루율에 대해 얼마간의 가중치를 부여해야 한다는 의미가 된다.


3. GPA

이에 따라, GPA(Gross Production Average)가 발명되었다. 이 스탯은 출루율에 1.8의 가중치를 부여한 것이다.

GPA = (1.8*OBP + SLG) / 4

물론 이 식을 그대로 쓰지 않고 Park Factor를 적용, 조정하여 사용한다. 4로 나누는 이유는 AVG와 비슷한 정도의 scale을 얻도록 하기 위해서이다. 마치 타율과 비슷하게, GPA가 2할대 초반이 나오면 형편없는 타자이고, 3할이 나오면 아주 뛰어난 공격력을 지닌 타자라고 볼 수 있는 것이다.

GPA는 OPS보다 실제 득점과의 상관관계가 더 높으면서도 여전히 계산하기가 쉽다는 장점을 가지고 있다. GPA를 Runs, 즉 점수를 내는 데 기여한 수준으로 변환하는 공식들도 개발되어 있는데, 대표적인 것은 PA*1.356*(GPA^1.77) 이다.

여담이지만, "Moneyball"에서 Paul DePodesta는 OBP가 SLG보다 3배나 중요한 스탯이라고 주장한 바 있다. OBP가 중요하긴 하지만 그정도로 극단적인 OBP 우선주의는 좀 문제가 있다. DePodesta가 LA Dodgers에서 실패한 데에는 다 이유가 있는 것 같다...


4. RC, RC/27

이번에는 세이버 진영에서 내놓은 좀 더 복잡한 스탯들을 알아보자.

Bill James의 유명한 발명품들 중 하나인 RC(Runs Created)는 일단 아래와 같은 기본 형태를 가진다. (사실 이 스탯은 위의 GPA보다 훨씬 더 오래된 것이다.)

RC = (A*B) / C

A는 출루율을 반영한 어떤 값(On Base Factor)이며, B는 앞서 출루한 주자를 진루시키는 능력을 반영한 어떤 값(Advancement Factor)이다. C는 타자가 출루 내지는 진루를 시킬 수 있는 기회(Opportunity Factor)를 의미한다.

Bill James가 처음 RC를 고안한 이래로, 이 공식은 무려 14차례나 변형되어 왔다. 이를테면... 가장 기본적인 형태의 공식은 다음과 같다.

RC = ((H + BB) * TB) / (AB + BB)
      = OBP * SLG * AB


보다 널리 쓰이는 개량 버전 중 하나는 아래와 같다.

RC = ((H + BB - CS + HBP - GIDP) * (TB + 0.26 * (BB - IBB + HBP)) + (0.52 * SH + SF + SB)) / (AB + BB + HBP + SH + SF)

어이없다는 생각이 들 지도 모르겠으나... 이건 그나마 2002년 버전에 비하면 쉬운 공식이다. 필요한 숫자들이 많긴 하지만 모두 쉽게 얻을 수 있는 기본적인 스탯들이기 때문이다.

2002년 버전은 Wikipedia를 그냥 링크하도록 하겠다. 일일이 적자니 너무 길다... -_-;;;
클릭

링크에서... 위에 소개한 버전들을 쭉 지나면 2002 version이라는 것이 나온다. 읽을 수록 한숨만 나올 것이다. 통계적인 수치와 계산식을 통한 예측치를 일치시키려는 노력이 이렇게 계속되고 있지만... 그러면 그럴수록 식은 복잡해지고... 일반 팬들이 집에서 계산하기에는 무리가 많이 따르는 식이 되어 버리고 만다. 이 식을 바탕으로 한 득점 예상치의 오차가 5% 이내일 만큼 많이 정밀해진 것도 사실이지만... 그러면 그럴수록 오히려 활용하기는 더욱 어려워지고 있다.


[주: RC/27의 설명이 필요한 듯 하여 아래 paragraph를 나중에 추가하였다. 09/11/18]

한편, 공격력 측정 지표로 빈번히 이용되는 RC/27은 무엇일까?

RC/27은 단순히 RC를 27로 나눈 값이 아님에 유의하시길...!!!

RC/27 = 27 * RC / (AB - H + CS + GIDP + SH + SF)

계산하는 사람의 이론적인 이해 또는 입장에 따라 SH와 SF를 넣기도 하고 빼기도 한다. 개인적으로는 "SF는 넣고 SH는 제외해야 하지 않을까" 라는 생각을 하고 있다.

RC 대신 RC/27을 쓰는 이유는... RC가 누적 스탯이기 때문에, 절대적인 출장 기회가 많을수록 유리하기 때문이다. 예를 들어 어떤 플레이어가 부상으로 인해 시즌의 반 밖에 소화하지 못했다면, 그를 RC로 평가하는 것은 정당하지 못하다. RC/27의 개념은, 해당 타자 아홉 명으로 1번부터 9번까지 타순을 짠 다음, 9회까지 27아웃을 뛰는 동안 그 팀이 몇 점이나 득점할 수 있을지의 예상치를 산출하는 것이다. 따라서, 타석 수에 상관없이 절대적인 비교가 가능하다.

RC는 Bill James와 그의 동료들에 의해, 지금도 계속해서 개량 중인 스탯이다. "(출루능력 * 진루능력) / 기회"라는 이론적 기반 위에서, 실제 메이저리그 게임에서 통계적으로 관측되는 결과에 맞추기 위해 계속 식을 변형해 가는 것이다. Tom Tango는 이 이론적 기반 자체에 대해 의문을 제기한 바 있으며, 또한 RC가 홈런의 가치를 정확히 반영하지 못하고 있음을 보여주었다. Tom Tango의 비판에 대해서는 그의 홈페이지를 참고.

이러한 약점에도 불구하고, RC 특히 RC/27은 오랜 기간동안 타자의 공격력을 측정하는 지표로 매우 널리 이용되었다. 적어도 아래의 EqA나 wOBA가 나오기 전까지는 말이다.

5. EqA

이번에는 Baseball Prospectus의 야심작인 EqA를 살펴보자.

EqA는 Equivalent Average의 약자이다.
단어의 의미에서 알 수 있듯이, 역시 친숙한 AVG와 비슷한 숫자를 얻을 수 있도록 scale 조정을 한 스탯이다. 게다가 Equivalent는 리그에 대한 조정도 가능함을 의미한다. 즉 AA 레벨인 Texas League에서 뛰고 있는 어떤 유망주가 있을 때, 그의 활약 정도를 메이저리그로 옮겨 보면 어느 정도가 되는지 등의 분석이 가능하게 되는 것이다.

꽤 파워풀한 스탯 같지만... 역시 이런 스탯을 만들기 위해서는 엄청난 작업이 필요하다.

일단 아무 조정도 되지 않은 Raw EqA를 구해보면,

RawEqA = (H + TB + 1.5 * (BB + HBP + SB) + SH + SF - IBB/2) / ( AB + BB + HBP + SH + SF + CS + SB)

벌써 질렸는가? 이것은 단지 시작일 뿐이다.
이제부터 10번 이상의 변환을 거쳐야 한다. 하나하나가 결코 만만한 작업이 아니다.
이걸 일일이 설명하다가는 밤을 새야 할 것 같으므로, 그냥 Baseball Prospectus 사이트의 링크를 걸도록 하겠다.
클릭

이건 Runs Created 2002 버전보다도 몇 배나 어이없는 공식이다. RC의 경우는 엑셀을 이용하면 그럭저럭 노가다로 구할 수는 있지만... EqA는 솔직히 엄두조차 나질 않는다. 기껏해야 링크된 글을 몇 번 읽어보고 각각의 변환이 갖는 의미를 이해하는 정도가 고작이다.

주루플레이까지 포함하고 있고, 정교한 계산을 통하여 조정 작업을 거치게 되어 있으므로, 꽤 잘 만든 스탯인 것은 사실이지만 역시 일반 팬들이 활용하기는 너무 무리한 스탯이다.


이 밖에도 여러 OPS 대체 스탯이 만들어졌으나 일단 이 정도만 소개하고 넘어가고자 한다.


6. wOBA, wRAA

사실 진짜 소개하고 싶은 스탯은 바로 이 wOBAwRAA이다.

wOBA는 weighted On Base Average의 약자로, Tom Tango 외 2인이 쓴 책인 "The Book"에 잘 소개되어 있다. 앞으로 기회가 있을 때마다 이 책의 내용을 많이 소개할 예정인데... 2007년에 출판된 책으로, 세이버메트릭스의 새로운 교과서라고 해도 과언이 아닐 만큼 알찬 내용으로 잘 쓰여진 책이다.

세이버메트리션들은 이미 타자가 타석에 들어서서 발생한 어떤 "사건(Event)"이 득점에 미치는 영향을 오랜 기간에 걸쳐 조사해 왔다. 예를 하나 들어보자.

1999년부터 2002년간의 모든 메이저리그 게임을 이닝별, 상황별로 분석한 결과... 2사 만루 상황에서의 득점 기대값(Run Expectancy)은 0.815였다. 즉 이런 상황을 1000번쯤 맞게 된다면 815점 정도 득점할 확률이라는 것이다. 그런데... 타자가 여기서 만루홈런을 쳤다고 하자. 팀은 4점을 득점하고, 상황은 2사 주자 없음으로 바뀐다. 2사 주자 없음에서의 득점 기대값은 0.117로 나타나고 있다. 그렇다면, 앞의 만루홈런의 득점 가치(Run Value)를 구해 보자.

이 홈런으로 인해 득점 기대값은 0.815에서 0.117로 떨어졌다. 하지만 그 사이에 홈런으로 인해 팀은 4점을 득점하였으므로, 실제로는 0.117이 아니라 4.117이 된 셈이다. 따라서, 아래와 같이 식을 세울 수 있을 것이다.

0.815 + 만루홈런의 Run Value = 4.117

따라서, 2사 만루에서 홈런의 가치는 득점으로 환산하면 3.302 Runs가 됨을 알 수 있다.

이런 계산을 각 사건에 대하여 아웃카운트와 주자를 변화시켜 가며 모든 상황에 대해 해 보는 것이다. 이렇게 해서 사건별로 가중평균을 얻은 값은 아래와 같다.

홈런 : 1.397 Runs
3루타 : 1.070
2루타 : 0.776
1루타 : 0.475
에러 : 0.508
몸에 맞는 공 : 0.352
볼넷(고의사구제외) : 0.323
고의사구 : 0.179
폭투 : 0.266
아웃 : -0.299
(이하 생략 : 그 밖의 상황에 대한 데이터는 책을 참조하시기 바람... -_-;;; )

그렇다면 타자의 생산성을 어떻게 평가할 수 있을까? 홈런이나 안타 등이 가지는 가치는 아웃에 대비하여 구해야 할 것이다. "아무 것도 아닌 경우"란 존재하지 않기 때문이다. 타자는 아웃 당하거나, 아니면 어떤 방법으로든 살아서 나갈 것이다. 안타가 되었든, 에러가 되었든 간에 말이다. 따라서... 아웃으로 인한 가치의 손실을 빼 주면 해당 이벤트의 진정한 가치가 된다고 말할 수 있겠다. 예를 들면...

홈런 : 1.397 + 0.299 = 1.698

이런 식으로 구하는 것이다.

그 다음, 결과값을 OBP와 비슷한 scale로 나타내기 위해서, 각각의 value에 다시 1.15를 곱해 준다. 홈런의 경우는 1.698 * 1.15 = 1.95가 된다.

위에서 본 다른 스탯들은 주로 타율(AVG)과 비슷한 scale로 나타내기 위해서 조정을 했는데, wOBA의 경우는 출루율과 비슷한 scale로 조정을 해 주고 있다. 이렇게 조정해 주는 이유는 간단하다. 타자의 생산성을 한 눈에 알게 하기 위해서이다. .400의 출루율이 아주 좋은 것처럼, .400의 wOBA도 아주 좋은 것이다. .335 정도의 출루율이 리그 보통인 것처럼, .335 정도의 wOBA도 리그 보통이라고 생각하면 되는 것이다. 편리하지 않은가??

어쨌거나... 각 이벤트에 발생 횟수에 각각의 value를 곱하고, 여기에 다시 1.15를 곱하여 모두 더한다. 이를 PA(타석)로 나눠주면 그 타자가 한 번 타석에 들어설 때 팀의 득점 기대값(Run Expectancy) 상승에 얼마나 기여하는지를 알 수 있게 되는 것이다. 이것이 바로 wOBA이다. 식으로 나타내면 아래와 같다.

wOBA = (0.72*NIBB + 0.75*HBP + 0.90*1B + 0.92*RBOE + 1.24*2B + 1.56*3B + 1.95*HR) / PA

여기서 NIBB는 고의사구를 제외한 볼넷을 의미하며, RBOE는 Reached Base on Error, 즉 에러로 인해 타자가 출루에 성공하는 것을 의미한다. 타자의 능력과는 전혀 상관이 없는 폭투와 같은 이벤트는 아예 제외되어 있음에 유의하자.  (** 이 식은 이 글을 쓴 뒤에 약간 수정을 하게 되었다. 글 맨 마지막 부분 참고.)


이제 다음 단계는 그 타자가 실제로 메이저리그 평균보다 얼마나 뛰어난지를 점수로 계량하는 것이다. wRAA는 weighted Runs Above Average의 약자로, 단어 그대로의 의미를 지닌다. 즉 평균 타자에 비해 얼마나 득점에 기여하느냐를 점수(Runs)로 나타내는 것이다.

일단 리그 평균 wOBA를 구한다. 위의 모든 변수(홈런 등)에 리그 평균 값을 대입하면 된다. 그 다음, 해당 타자의 wOBA에서 리그 평균 wOBA를 빼 준다. 그리고 1.15로 나눠준다. (아까 OBP와 유사한 scale을 얻기 위해 1.15를 인위적으로 곱했으므로, 다시 나눠줘야 한다.) 마지막으로 해당 타자의 PA(타석)를 곱해주면, 그 타자가 해당 시즌에서 메이저리그 평균 타자에 비해 팀 득점에 기여한 정도가 점수로 나타나게 된다. 이를 식으로 나타내면...

wRAA = ((wOBA - lgwOBA) / 1.15) * PA

예를 들어서... Ryan Ludwick이 작년에 타석에서 어느 정도로 훌륭한 활약을 했었는지 계산을 해 보자.

2008년 NL의 리그 평균 wOBA는 대략 .331이었다. 한편, 2008년 Ryan Ludwick의 wOBA는 .406이었으며, 그는 617번 타석에 들어섰다. 이제 그의 wRAA를 계산해 보면...

wRAA = ((0.406 - 0.331) / 1.15) * 617 = 40.24

즉 Ryan Ludwick은 평균적인 NL 타자들에 비해 2008 시즌 팀 득점에 타격을 통해 40.24점 정도 더 많이 기여했다는 뜻이 된다. (참고 : Fangraphs에서는 그의 wRAA가 39.5로 나타나고 있다. 아마도 리그 평균 wOBA를 구하는 과정에서의 오차로 인한 차이가 아닐까 생각된다.)


다른 스탯에 비해 wOBA가 가지는 매력은 분명하다. 우선 실제 메이저리그에서 발생했던 사건들의 기대값을 구하여 계산한 결과이므로... 계산한 이론치와 실제 발생하는 득점 사이의 상관 관계가 우수하게 나타난다. 그리고 OPS만큼은 아니더라도, 다른 세이버 스탯들에 비하면 계산이 무척 쉬운 편이다. 마지막으로, wRAA로의 환산이 아주 편리하여, 해당 플레이어가 타석에서 점수로 몇 점 만큼 팀에 기여해 주었는지를 아주 쉽고 빠르게 계산할 수가 있다. 이것은 특히 여러 플레이어를 비교할 때에 그 진가를 발휘한다.

다만 약간 아쉬운 부분이라면, wOBA는 타석에서 타자에게 벌어지는 이벤트만을 반영하므로, 도루와 같은 주루플레이가 제외되어 있다. 이 부분은 앞으로 보완이 필요하다고 본다.



나름 쉽게 설명해 보려고 애써 보았는데 잘 된 것인지 모르겠다. 다음 번 세이버메트릭스 포스팅에서는 Replacement Level과 Positional Adjustment에 대해 다루고자 한다. 거기까지 다루고 나면 타자들의 WAR에 대해서도 설명이 가능할 것 같다.



** 추가 수정 사항

이 글을 쓴 이후, WAR를 계산하기 위해 직접 wOBA를 산출하던 중, 여러 타자들의 wOBA를 계산한 결과 모두 Fangraphs나 Stat Corner 등의 사이트에 비해 계산 결과가 다소 낮게 나오는 문제점을 발견하였다. 원인이 무엇일까 고민하던 중... wOBA를 창안한 Tom Tango의 글에서 다음과 같은 부분을 발견했다.

Note: Depending on the specific analysis, the PA term (plate appearances) may exclude bunts, IBB, and a few of the more obscure plays.

빙고!
wOBA 계산시 분모에서도 IBB(고의사구)를 제외하면 되는 것이다. 논리적으로 생각해도 분자에서 NIBB, 즉 고의가 아닌 보통 볼넷만을 계산 대상으로 하였으므로, 분모에서도 NIBB만을 계산에 넣는 것이 타당하다고 본다. 따라서, 수정된 식은 아래와 같다.

wOBA = (0.72*NIBB + 0.75*HBP + 0.90*1B + 0.92*RBOE + 1.24*2B + 1.56*3B + 1.95*HR) / (PA - IBB)

이렇게 계산하면 Fangraphs 사이트에 올라와 있는 결과들과 상당히 유사한 값을 얻을 수 있다. 물론 위의 인용문에서도 알 수 있듯이 각자의 논리에 따라 계산식이 조금씩 달라지므로, 소수점 세째 자리에서 나타나는 약간의 오차는 어쩔 수 없는 것일지도 모른다. Fangraphs나 Stat Corner 모두, 자신들이 어떤 특정 스탯을 더하고 뺐는지 상세히 밝히지 않고 있다. Tom Tango의 오리지널 계산식과는 값이 다르게 나오는 것으로 보아 뭔가 변화를 줬음은 확실한데 말이다...
신고
Posted by FreeRedbird