(주의: 이 글은 그동안 적어온 세이버메트릭스 글 중에서도 매우 매니악한 분위기의 글이다. 마음의 준비를 하고 읽으시기를...)

Baseball Prospectus가 세이버메트릭스의 중심지이던 시절이 있었다. Voros McCracken이 DIPS 이론을 발표하고, Keith Woolner가 Replacement Level 및 VORP를 소개하던 2000년대 초반이 바로 그 시기이다. 이후 Nate Silver와 Clay Davenport 등 뛰어난 세이버메트리션들이 활약하면서 WARP, EqA와 같은 새로운 스탯과 퍼포먼스 예측 시스템인 PECOTA를 내놓으며 지속적으로 상당한 영향력을 행사해 왔다. 그러나, 최근 들어서는 BP에서 독자적으로 내놓은 기존 스탯들이 많은 비판을 받고, 반면 별다른 새로운 것을 내놓지 못하면서 다소 침체에 빠진 것도 사실이다. Dave Cameron 등은 대놓고 BP를 한물 간 퇴물집단으로 취급하고 있기도 하다. (물론 이것은 세이버메트릭스에 국한된 이야기이고... BP의 Kevin Goldstein이나 Will Carroll 등은 좋은 읽을거리를 많이 제공하는 괜찮은 칼럼니스트들이다.)

그러한 BP가 최근 들어 Eric Seidman, Colin Wyers, Matt Swartz 등을 새로 필진으로 영입한 것은 바람직한 변화의 흐름이라고 할 수 있다. 이번에 Eric Seidman과 Matt Swartz가 SIERA를 발표하는 모습에서도 BP의 변화를 볼 수 있다. BP는 보통 자신들의 스탯에 대해 계산과정에 대한 자세한 설명을 공개하지 않으며, 그나마도 유료 회원 전용 컨텐츠로만 올려놓는 경우가 많았다. 이러한 폐쇄성은 그 자체로도 비난의 대상이 되어 왔고, 발전적인 논의가 풍부하게 재생성되는 데 큰 지장을 주어 왔다. 하지만, 이번 SIERA의 경우는 무려 5개의 포스팅에 걸쳐서 기본 컨셉과 계산 과정이 비회원에게도 상세하게 공개되어 있는 것이다. 아래 링크의 인트로 페이지에 가면 5개의 포스팅을 모두 볼 수 있다.

링크(Baseball Prospectus의 SIERA 페이지)

SIERA는 Skill-Interactive ERA의 약자이다. (이 스탯의 이름을 보면서 과거에 잘나갔던 게임회사 SIERRA를 떠올리는 것은 나 뿐일까??) 이 스탯을 이해하기 위해서는, 역시 BP를 통해 2006년에 발표되었던 Nate Silver의 QERA를 먼저 살펴보는 것이 좋을 것이다.

QERA는 Quick ERA의 약자이다. Nate Silver의 글에 따르면(이 글은 유료 컨텐츠이다. 이런 것들이 BP의 폐쇄성을 나타내는 것이다. 돈을 벌고자 하는 것은 전혀 나쁜 것이 아니지만, 이런 기본적인 글조차 유료인 것은 많은 사람들이 이 스탯에 대해 토론할 기회를 박탈하는 것이다. 게다가 이 글은 발표된지 3년이 넘게 지났는데, 아직도 유료컨텐츠로 묶어둘 이유가 무엇이 있을까? BP 사람들 이외에 거의 아무도 QERA를 쓰지 않는 것은 다 이유가 있다.), 투수의 스탯 중에서 K%, BB%, GB%/FB%가 투수에 따라 상당히 일관된 경향을 보이며, 나아가 투수의 ERA와 밀접한 상관 관계를 갖는다는 것이다. 따라서, 위의 숫자만 가지고 투수의 ERA를 예측할 수 있는 식을 개발하였다.

QERA = (2.69 - 3.4*K% + 3.88*BB% - 0.66*GB%)^2

FIP가 K, BB(+HBP), HR을 사용하는 것과 비교하면, HR 대신 GB%를 사용하는 것이 가장 큰 차이임을 주목하시기 바란다. 또한, 이 식은 선형함수가 아님을 알 수 있는데, 주자를 누상에 내보내면 더욱 많은 점수를 실점하게 되므로 실점은 Linear하게 나타나지 않다는 BP의 주장을 반영하고 있다.

그런데, 이 스탯은 구조적인 문제를 안고 있었다. K%나 BB%가 K/PA, BB/PA로 계산되는 데 반해, GB%는 GB/BIP(Ball in Play), 즉 인플레이가 된 타구 중에서의 GB 비율로, 비교 대상이 되는 숫자가 서로 다른 것이다. 게다가, Eric Seidman과 Matt Swartz(이하 Eric/Matt)에 따르면, 이 식은 "K, BB, GB 간의 상관관계를 제대로 고려하지 않았다"는 것이다.

그래서, Eric/Matt은 QERA를 업그레이드하기로 했다. 그들은 GB/BIP를 (GB-FB-PU)PA로 바꿔서 비교대상을 PA로 통일하였다. (여기에서의 FB는 외야플라이이며, PU은 Pop Up 즉 내야플라이의 약자이다. 쉽게말해 "(그라운드볼-플라이볼)/타석" 이다. Fangraphs의 경우 외야/내야를 구분하지 않고 그냥 FB로 합쳐 놓고 있음을 참고하시기 바란다.) 또한, K%나 BB%, GB%가 상당 부분 서로 영향을 준다고 보고, 위의 QERA 식을 전개한 다음 나오는 모든 변인에 대해 회귀분석을 실시하였다. 예를 들어 K%나 BB% 뿐 아니라, K%*BB%도 중요한 변인이 될 수도 있다고 생각한 것이다.

또한, Eric/Matt은 QERA와 마찬가지로, HR을 변인으로 사용하는 것을 거부하고 대신 GB%를 선택하였다. HR/FB 비율이 투수의 실력이라기보다 운에 의해 많이 좌우된다는 것이 그 이유였다.


이렇게 해서 이들은 새로운 스탯을 개발하게 되었다. 이들이 SIERA를 처음 발표한 것이 미국시간으로 2월 8일이고, 현재의 버전으로 식을 수정한 것이 2월 12일이니, 아주 따끈따끈한 새 스탯인 셈이다.

그런데, 이 스탯의 궁극적인 목표가 아주 재미있다. Eric/Matt의 원문(SIERA 시리즈 중 네 번째 글)을 보자.

To be blunt, our goal was to beat everyone at predicting park-adjusted ERA in the following season, regardless of HR/FB treatment, and beat everyone but FIP and tRA in terms of same-year predictive value.


SIERA의 궁극적 목적은 특정 투수의 올 시즌의 데이터를 가지고 그의 내년 ERA(파크팩터 적용)를 가장 정확하게 예측하는 것이며, 같은 시즌의 ERA에 대해서는 FIP와 tRA 다음으로 정확한 예측을 할 수 있는 것이라고 한다...!!! 이것은 스탯을 비교하는 데 있어서 문제가 될 수 있는데, FIP나 tRA는 투수의 내년 ERA가 아니라 투수의 현재 진짜 기량 수준(True Talent)를 나타내기 위해 개발된 스탯이며, 원칙적으로 미래를 예측하기 위해 개발된 스탯은 아니기 때문이다. SIERA와 FIP 혹은 tRA를 아무 전제 없이 그냥 1:1로 대결시키는 것은 공정하지 않을 수도 있다는 이야기가 된다.

Eric/Matt의 생각은, 수비수나 운의 개입 보다 투수 자신의 역량이 매우 크게 작용하는 변인들(K% 등)은 해가 바뀌더라도 각 투수별로 비슷하게 나타날 것이므로, 올해의 데이터를 가지고 내년의 ERA를 맞출 수 있다면, 그것이 해당 투수의 진정한 기량 수준을 가장 잘 표현하는 스탯이라는 것이다. 이런 주장의 문제점에 대해서는 글의 뒷부분에서 다시 언급하기로 하고, 일단은 이러한 SIERA의 개발 목적을 감안하여 계산식과 결과를 살펴보도록 하자.


Eric/Matt이 회귀분석을 통해 얻은 계산식은 아래와 같다.

SIERA = 6.145 – 16.986*(SO/PA) + 11.434*(BB/PA) – 1.858*((GB-FB-PU)/PA) + 7.653*((SO/PA)^2) +/– 6.664*(((GB-FB-PU)/PA)^2) + 10.130*(SO/PA)*((GB-FB-PU)/PA) – 5.195*(BB/PA)*((GB-FB-PU)/PA)

where the +/- term is a negative sign when (GB-FB-PU)/PA is positive and vice versa.


주: BP 사이트에서는 두 가지의 서로 다른 SIERA 계산식을 볼 수 있다. 즉 시리즈의 1편에 나온 식과 5편 및 인트로 페이지에 나온 식이 서로 다른 것이다. 이것은 1편 발표 후 Eric/Matt이 일부 오류를 수정하여 다시 계산했기 때문이다. 앞으로도 또 바뀔 수도 있는데, 이 페이지에 있는 식을 최신 버전으로 보면 된다.

Matt/Eric은 2003년부터 2008년까지의 MLB 데이터를 가지고 스탯 간 비교를 수행하였다. 이들의 계산 결과를 그대로 옮기면 아래와 같다.
Stat    YR-Same YR-Next
SIERA 0.957 1.162
tRA 0.755 1.222
FIP 0.773 1.224
xFIP 1.168 1.319
QERA 1.070 1.248
ERA-Park ---- 1.430
ERA 0.094 1.434

숫자는 RMSE이다. 작을 수록 우수하다는 의미가 된다.

YR-Same은 같은 해의 파크팩터 적용 ERA를 예측하는 데 얼마나 우수한가를 나타낸다. 예를 들어 2005년의 SIERA로 2005년의 ERA를 맞춰 보려고 할 때의 에러 수준인 것이다. tRA와 FIP가 역시 뛰어난 성적을 보이고 있음을 알 수 있다. xFIP가 성적이 안좋은 것이 매우 의외이다.

YR-Next는 올해의 스탯을 가지고 내년의 파크팩터 적용 ERA를 예측하는 데 얼마나 우수한가를 나타낸다. SIERA가 1위를 차지했음을 알 수 있다. (비록 SIERA의 RMSE 1.162와 FIP의 1.224는 그다지 큰 차이가 아니지만 말이다.) 이렇게 보면 Eric/Matt은 당초의 목적을 달성한 것으로 보인다...!!

과연 그럴까...?

SIERA가 발표된 이후, 여러 세이버메트릭스 커뮤니티에서는 열띤 토론과 검토가 이어졌다. 그 중에서도 특히 주목할 만한 것은, 사실상 현대 세이버메트릭스의 최전방이라고 볼 수 있는 Tom Tango의 inside the book 블로그에서 벌어진 토론이다. 개인적으로는 거의 100개에 달하는 댓글을 통해 벌어진 이 온라인 토론을 매우 흥미진진하게 읽었는데... 혹 위의 링크에 가서 이 댓글들을 몽땅 읽고 "정말 재미있다"고 느끼시는 분이 있다면, 당신은 세이버메트릭스 매니아 혹은 Stathead/Stat Nerd로서의 자격이 충분하다. ^^

Eric/Matt은 SIERA가 항상 더 좋은 결과를 낸다고 주장하였으나, Tom Tango의 테스트 결과는 조금 다르다.

2002-09 시즌에 1500 PA 이상을 기록한 투수 중에서 가장 극단적인 그라운드볼 성향의 투수 20명에 대해 계산한 결과는 아래와 같았다.
투수 20명의 실제 ERA 평균 : 4.17
SIERA 평균 : 4.16
FIP 평균 : 4.14
이정도면 거의 비긴 것이다.

샘플을 "가장 볼넷을 적게 내준 투수 20명"으로 바꿔서 다시 계산해 보았다.
투수 20명의 실제 ERA 평균 : 3.95
SIERA 평균 : 3.98
FIP 평균 : 3.93
이것도 거의 비긴 것이다.

그럼 그라운드볼 + 적은 볼넷의 경우는? Tom Tango는 GB와 BB 분야에서 모두 평균에서 1 표준편차 이상 우수한 투수 9명에 대해 계산을 수행하였다.
9명의 ERA 평균 : 3.82
SIERA 평균 : 4.12
FIP 평균 : 3.94
여기서는 FIP의 승리이다.

Matt Swartz는 이에 대해 "High GB/High BB" 투수에 대해서는 SIERA가 더 정확하고, "High GB/Low BB" 투수에 대해서는 FIP가 더 정확한 것이 맞다고 대답하고 있다. Matt Swartz가 주장하는 SIERA의 강점은, 특히 그라운드볼과 볼넷이 모두 많은 투수의 경우, 볼넷으로 내보낸 주자를 병살 처리할 수 있기 때문에 FIP나 다른 스탯이 생각하는 것보다 ERA가 낮게 나타나고, SIERA는 이러한 특징을 잘 잡아낼 수 있다는 것이다.


어쨌거나... SIERA 및 위의 테스트에 대한 개인적인 의문점을 몇 가지 적어 보도록 하겠다.


1. Tom Tango도 지적한 부분인데... 위의 테스트에서 Year-to Year 부분을 시즌별로 나눠서 보면 아래와 같다. (이 Matt Swartz의 코멘트는 시리즈 4의 댓글에서 볼 수 있다. 독자의 질문에 대답하여 올린 것이다.)
BP staff member Matt Swartz
BP staff
(24824)

Sure. If that helps, I'll put it here in the comments--

Next-year ERA for
03-04, 04-05, 05-06, 06-07, 07-08, 08-09

SIERA 1.107 1.141 1.179 1.186 1.107 1.248
QERA 1.237 1.237 1.219 1.277 1.206 1.316
xFIP 1.284 1.403 1.211 1.404 1.287 1.311
FIP 1.120 1.230 1.298 1.236 1.170 1.283
tRA 1.162 1.202 1.273 1.216 1.171 1.307
ERA_pk 1.391 1.388 1.488 1.429 1.390 1.493


As you can see, it's ahead every time and offers a solid improvement if you compare the difference between the other estimators and regular ERA_pk to the difference between the other estimators and SIERA.

SIERA의 RMSE를 보면 흥미로운 부분을 발견할 수 있는데, 03-04에서 07-08까지는 RMSE가 1.107에서 1.186 사이에서 움직이다가, 08-09 시즌에서는 1.248로 이탈하는 것이다. 이는 SIERA가 2003년부터 2008년까지의 MLB 데이터를 가지고 만들어진 스탯임을 극명하게 반영하는 결과라고 하겠다. 이것이 일시적인 이탈인지, 아니면 앞으로 더욱 오차가 커질지는 몇 시즌을 더 두고 보아야 할 것 같다. 하지만, 분석 대상이 되는 시기가 바뀌어서 표본이 바뀌게 되면 오차가 커질 수 있다는 것은, 철저하게 회귀분석에 기반한 SIERA와 같은 스탯이 태생적으로 가지게 되는 약점이다.

FIP의 경우 1.12에서 1.298 사이에서 움직이고 있는데, 08-09년의 경우에도 이 범위 안에 들어 있으며, xFIP도 비슷한 양상을 보인다. 한편, QERA나 tRA의 경우는 SIERA처럼 08-09년에 약간 예외적인 모습을 보이고 있는데, 역시 SIERA와 비슷한 시기의 데이터에 최적화된 스탯이 아닌가 의심을 해 볼 수 있는 부분이 되겠다.


2. 비교 자체가 공정하지 않은 부분이 있다. SIERA는 처음부터 파크팩터 적용 ERA(Park-adjusted ERA)의 예측을 목표로 하여 이듬해의 파크팩터 적용 ERA를 가지고 각 변인에 대해 회귀분석을 실시하였다. 반면, FIP나 xFIP는 파크팩터가 전혀 고려되지 않은 스탯이다. 이들을 서로 비교하면 당연히 파크팩터 적용 상황에 최적화된 SIERA가 가장 우수하게 나올 수밖에 없다. 개인적으로는 FIP에 파크팩터를 적용해서 좀 더 공정한 환경을 만들어서 동일한 테스트를 수행해 보고 싶은데, 혹 실제로 테스트를 하게 되면 별도로 포스팅을 하도록 하겠다.


3. 내년 시즌의 파크팩터 적용 ERA가 과연 투수의 진짜 능력을 보여주는 가장 좋은 지표인지에 대한 의문이다. ERA는 늘 강조하다시피 투수와 수비수들이 함께 만들어내는 팀 기록이다. 순수한 투수 스탯이라고 보기가 어려운 것이다. Eric/Matt이 이런 점을 모를 리는 없다고 생각하는데, 그럼에도 불구하고 ERA를 다시 궁극적인 지표로 보고 ERA를 맞추는 것을 목표로 하여 스탯을 개발한 것은 이해가 잘 되지 않는다. 정말 이게 최선인 것일까? 올해의 ERA가 수비수의 실력이나 운에 의해 왜곡되어 있는 것이라면, 내년의 ERA 역시 마찬가지 아닐까?


4. SIERA가 맞추고자 하는 목표가 올해가 아니라 "내년" 시즌의 파크팩터 적용 ERA라는 점이다. 올해의 기록을 가지고 내년 시즌의 ERA을 맞추고자 한다면, 여기에는 내년의 퍼포먼스에 대한 예상치가 포함되게 된다. 그렇다면 선수의 나이에 대한 고려, 즉 Aging Curve를 포함시켜야 하는 것이 아닌가? 현재의 계산식은 모든 투수들이 1년 동안 똑같은 수준으로 나이를 먹는 것처럼 취급하고 있다. 30세의 투수가 올 시즌과 내년 시즌에 기록하는 ERA와, 40세의 투수가 올 시즌과 내년 시즌에 기록하는 ERA는 전혀 다른 것이 아닐까? 내가 위에서 언급한 대로 직접 SIERA에 대해 테스트를 수행한다면(그럴 시간이 된다면...), 나이가 다른 투수들 간의 비교도 해 보고자 한다.

궁극의 목적이 내년 ERA라는 점에서, SIERA는 FIP나 tRA보다는 CHONE이나 ZiPS와 같은 퍼포먼스 예측 시스템과 대결을 붙이는 것이 더 타당할지도 모른다.


5. 마지막으로, Eric/Matt의 테스트에서 xFIP가 상당히 안좋은 결과를 낸 부분이다. 이것은 매우 의외인데, 작년에 역시 BP 필진이기도 한 Colin Wyers가 The Hardball Times에 기고한 글에서, xFIP는 ERA를 예측하는 데 있어 FIP보다도 우수한 스탯으로 나타났었기 때문이다. 물론 Wyers의 테스트 방법은 시즌을 반으로 나누어 짝수 일의 등판 스탯으로부터 홀수 일의 ERA를 얼마나 잘 예측하는지를 살펴본 것으로 Eric/Matt과는 약간 다르지만, 그렇다고 해서 이렇게 정반대의 결과가 나올 수는 없다고 생각한다. 이러한 현상은 Colin Wyers 본인도 황당하게 느끼고 있는데, 아직 원인 규명이 되지 않은 듯하다.



개인적으로는 SIERA라는 새로운 스탯의 출현도 인상적이었지만, FIP의 우수성에 다시한번 감탄하는 계기가 되었다. FIP는 DIPS이론을 가장 간략하게 표현한 스탯으로, 사실 간단한 계산과 ERA Scale로의 변환을 위해 정확도를 약간 희생시킨 것이다. 그럼에도 불구하고, "다음 시즌의 파크팩터 적용 ERA"라는 적지에서의 원정 경기에서도 위에서 보는 바와 같이 해당 조건에 완전히 특화된 SIERA와의 대결에서 거의 밀리지 않고 대등한 결과를 내놓고 있다. FIP가 인플레이된 타구를 모두 제외하는 것에 대하여 많은 분들이 "투수도 BABIP를 분명히 일정부분 제어하므로, FIP는 잘못된 스탯이다"라고 주장하시는데, 이분들에게 이러한 테스트 결과를 보여 드리고 싶다. SIERA는 그라운드볼 비율을 매우 중요한 요소로 간주하여 계산하므로, 인플레이된 공에 대한 투수의 제어 능력을 인정하는 스탯이다. 그럼에도 불구하고, 인플레이된 공을 통째로 제외시킨 FIP가 똑같이 우수한 결과물을 내놓고 있는 것이다. 그것도 훨씬 간단한 계산식으로 말이다...!!!!!  이정도면 FIP를 믿고 사용해도 되지 않을런지???

물론, 투수의 퍼포먼스를 절대적으로 평가할 수 있는 단 하나의 스탯 같은 것은 없다. 이전 포스팅들에서 보여 드린 바와 같이, FIP와 xFIP, tRA, tRA* 등은 제각기 장단점을 가지고 있었고, 이는 SIERA도 마찬가지이다. 볼넷을 많이 내주는 투수들에게 상대적으로 정확한 반면, 볼넷을 적게 내주는 투수들의 경우는 이와 반대의 현상이 나타나는 것이다. Matt Swartz가 Tom Tango와의 토론 거의 끄트머리에서 남긴 댓글을 보면서 마무리하도록 하자.

Will doing a regression miss some things?  Absolutely. Will doing linear weights miss some things?  Absolutely. Will they miss different things?  Absolutely.  So let’s continue to do both.  If I told you only that a pitcher had a FIP of 4.00 and a SIERA of 3.50, and then I said you had to guess if a pitcher had an ERA above or below 4.00?  I hope you would guess below.  If I then asked if you to guess whether he had an ERA above or below 3.50, I would hope you would guess above.

결국 SIERA나 FIP나 각각의 장단점이 있으니 둘 다 잘 활용하자는 이야기이다. 결론이 너무 싱거운가? 애초에 단 하나의 절대적인 답을 바라는 것 자체가 무리이다. 세이버메트릭스는 진리 자체가 아니다. 그냥 조금이라도 진실에 가까이 다가가 보고자 하는 소박한 바램이 통계적인 기법을 타고 나타나는 모습일 뿐이다. 그것도 Tom Tango의 블로그에서 벌어진 난상토론과 같이, 일방적인 도그마가 아니라 많은 사람들이 참여하여 토론을 통해 풀어 나가는 민주적인 세계이다. 당장 답을 알 수 없고, 어디에나 오차가 있다고 하더라도, 진실을 조금이나마 알고 싶어하는 이러한 바램 자체가 잘못되어 있는 것은 아니지 않은가? 아니, 인간은 원래부터 이런 존재이지 않은가??


PS. Fantasy Baseball을 하시는 분들은 이러한 스탯의 특성을 잘 활용하면 도움이 될 것이다. 시즌 전에 드래프트를 할 때에는 직전 시즌의 SIERA를 바탕으로 투수를 선택하고, 시즌 중에 트레이드나 웨이버 픽업을 할 때에는 현 시즌의 FIP를 참고하는 전략이 어떨지?


Today's Music : Sheryl Crow - Always on Your Side (ft. Sting) (Official MV)



듣는 이의 심금을 깊이 울리는 명곡. Sting과의 듀엣 버전도 좋고 Sheryl Crow 혼자 부른 앨범의 버전도 좋다.
Posted by FreeRedbird

댓글을 달아 주세요

  1. BlogIcon drlecter 2010.02.22 16:48 신고 Address Modify/Delete Reply

    글 고맙습니다. 안 그래도 VEB에 얼마전에 tom.s인가 vivaelpujols인가가 세이버 스탯들 좌악 나열하면서 SIERA를 언급해서 이게 뭔가 그랬었는데 ㅎㅎ FIP는 삼진이 적은 투수에게 지나치게 가혹한 스탯이라고 생각은 하지만, 보면 볼수록 우수한 스탯이라는 것에는 동감합니다.

    • BlogIcon FreeRedbird 2010.02.25 18:32 신고 Address Modify/Delete

      그건 아마 vivaelpujols의 글이었을 겁니다. VEB 뿐 아니라 Beyond the Box Score와 The Hardball Times까지 활동 영역을 넓혀서 왕성하게 포스팅을 하고 있죠.

  2. BlogIcon Q1 2010.02.23 05:09 신고 Address Modify/Delete Reply

    그래도 환타지에선 승수가 중요하기 때문에 승빨 좋은 투수가 킹왕짱입죠 ^^;;
    어차피 다 좋은 투수는 비싸고 중반에 영입은 어딘가 모자라도 승빨 좋은 (운 좋은) 투수가 짱인거 같아요.
    운 좋은 놈 못 당한다는 옛말도 있듯이 말이죠 ^^;;

    • BlogIcon FreeRedbird 2010.02.25 18:33 신고 Address Modify/Delete

      하긴 SIERA나 FIP를 기준으로 해 봐야 ERA 한 항목에서 이길까말까한 것이니까요... 역시 승수가 짱이겠죠.

      사실 저는 판타지 완전 초보입니다. 올해 처음 참여하는 중입니다. ㅎㅎㅎ

    • BlogIcon Q1 2010.02.26 02:05 신고 Address Modify/Delete

      K/BB비율이 좋은 투수이니 삼진을 추가하면서 볼넷 증가는억제할 수 있으니 괜찮은 관점입니다만.. 보통 투수 볼넷은 그냥 WHIP에 포함시키는 경우가 많아서요. 그냥 볼넷 많더라도 삼진 갯수가 많고 승빨 좋은 투수를 (중간급 중에서는) 개인적으로 선호하죠 ^^;
      사실 에이스들은 부상만 안 당해주면 (승운은 팀사정이고) 거기서 거기인지라 ^^;;;

  3. BlogIcon 홈런강탈 2010.03.01 21:07 Address Modify/Delete Reply

    최근에는 국내야구에 너무 빠져버려서 국내선수에게 적용시키기는 SIERA는 그림의 떡이군요 ㅋ 저두 FIP를 선호하는데 특히 구원투수에게 ERA는 크게 의미를 두지 않는데요. 근데 유동훈의 올시즌 0.53의 방어율이 FIP로 3.29정도가 나오는걸 보면 좀 난감한데 라는 생각이 들기도 하네요. 이런 극단적인 경우는 ERC로 보는게 나은가 라는 생각도 들었어요 ㅎ

    • BlogIcon FreeRedbird 2010.03.02 15:43 신고 Address Modify/Delete

      구원투수는 시즌당 이닝 수가 너무 적어서 분석하기가 매우 어렵습니다. 선발투수도 예측이 어려운 판에.. marcel projection을 보면 선발투수들이 대체로 0.8 정도의 신뢰도를 가지는 데 비해 구원투수들은 0.5 정도에 머물고 있죠...

    • BlogIcon 홈런강탈 2010.03.02 22:10 Address Modify/Delete

      그렇긴 하네요. 유동훈의 FIP를 계산했더니 3.29던데 내년시즌 그 정도 성적을 거둘수도 있다는 생각이 들고. 확실히 릴리버들은 예측이 어렵네요 ㅎ

  4. 버스터포지 2011.07.20 21:30 Address Modify/Delete Reply

    오늘 보니까 FanGraphs 투수 스탯 'Advanced' 탭에 SIERA가 추가됐더군요. ㅎㅎ

  5. ss 2012.07.17 23:35 Address Modify/Delete Reply

    FIP이 좋기한데 케인 같은 선수는 왜 그럴까요? 현지 세이버메트리션들은 케인에 대해서 어떤 식으로 평가하는지 궁금해지네요.

    • BlogIcon FreeRedbird 2012.07.18 00:57 신고 Address Modify/Delete

      Matt Cain은 커리어 내내 낮은 BABIP를 유지하고 있고, 이것이 FIP나 xFIP에 비해 낮은 ERA를 기록하는 주된 이유가 되고 있습니다. 메이저리그에서 1,444 이닝을 던졌으니 이쯤되면 운이 아니라 실력이라고 인정해야 합니다. 그에게는 남들보다 안타를 덜 맞는 특별한 능력이 있는 것이죠.

      그가 왜 이런 특별한 능력을 가지게 되었는지에 대해 아직 명확한 설명은 없으나, 다음의 두 글을 참고하시기 바랍니다.

      http://www.fangraphs.com/blogs/index.php/matt-cain-as-an-example-in-beating-the-spread/
      http://www.fangraphs.com/blogs/index.php/matt-cain-destroyer-of-dips/

      Cain 같은 경우는 FIP나 xFIP가 제대로 나타내지 못하는 skill을 보유하고 있다고 봐야겠지요. 모든 법칙에 예외가 있듯이 FIP도 마찬가지 입니다. 그래도 FIP가 유용한 이유는 1) 쉽고, 2) 투수와 명확히 관련된 사건들만 반영되고, 3) 예외가 적습니다.

  6. 001 2012.07.21 16:16 Address Modify/Delete Reply

    근데 근래에 팬그래프에서 제공되는 tERA는 거의 에러 수준이네요.

    • BlogIcon FreeRedbird 2012.07.22 00:37 신고 Address Modify/Delete

      글쎄요.. 제가 보기엔 그렇게 문제가 많은 것 같지는 않은데요.
      http://www.fangraphs.com/leaders.aspx?pos=all&stats=pit&lg=all&qual=y&type=1&season=2012&month=0&season1=2012&ind=0&team=0&rost=0&age=0&players=0&sort=19,a

      tERA순으로 정렬시켜서 보면, 그런대로 납득할 만한 순서의 리스트라고 생각합니다. 스탯 자체의 결함으로 인해 전반적으로 다소 높게 나타나는 문제가 있긴 합니다만...

이 글은 "한국야구팬사이트"에서 승짱님의 한국 프로야구 투수 랭킹 계산을 돕기 위한 예로서 작성된 것이다.
단지 "예"일 뿐이므로 스탯에 대한 해석, 계산 방법에 대한 입장의 차이에 따라 얼마든지 변형과 조정이 가능하다.

계산 방법은 기본적으로 이전 포스팅에서 소개해 드린 것과 동일하다.

다만, FIP를 RA scale로 바꿔줄 때 0.92를 사용하는 대신 실제 KBO의 ERA와 RA 비율을 계산하여 사용하였다. 결과는 아래 첨부파일에서 볼 수 있듯이 0.91~0.92로 대동소이하게 나온다.

또한, FIP Constant 역시 KBO의 실제 데이터를 가지고 계산하였다. 2007년 시즌은 FIP Constant가 2.84에 불과한 충격적인 결과가 나왔으나, 2008년과 2009년은 그럭저럭 MLB와 유사한 숫자가 나왔다.

2009년과 2008년 KBO 시즌에서 각각 5명의 선발투수를 골라서 직접 계산을 해 보았다.

5명의 선발투수는 완전히 임의로 고른 것이다. (나는 KBO에 좋아하는 팀이 없으며, 8개 구단에 대해 완전히 중립이다...)


이 계산에는 다음과 같은, 근거가 부족한 가정들이 들어가 있다. 이런 부분들을 말끔하게 해결할 수 없는 것은 KBO의 데이터 부족, 개인적인 지식 부족, 그리고 개인적인 시간 부족에 기인한 것이다.

1. KBO에서 각 이벤트는 MLB와 비슷한 Run Value를 가지며, 따라서 FIP 계산식은 동일하다.

2. KBO에서 Run Scoring Environment는 MLB와 유사하여, Runs per Win을 MLB와 동일하게 [((상대 팀 이닝*상대 팀 실점수준)+(소속 팀 이닝*소속 팀 실점수준)/(상대 팀 이닝+소속 팀 이닝))+2] * 1.5 의 근사식으로 산출할 수 있다.

3. KBO에서 선발투수의 Replacement Level은 MLB와 동일하며, 따라서 Replacement Level 선발투수의 기대 승률은 .380이다.
--> 단, KBO의 Replacement Level이 실제로는 이와 다르다고 해도, 상대적 비교에는 지장이 없다. 이 계산에서 투수 A가 투수 B보다 WAR이 높게 나타났다면, Replacement Level을 바꾸더라도 A가 B보다 높게 나타나는 것은 변함이 없다. 단지 절대값이 바뀔 뿐이다.


다음은 중요한 참고 사항이다.

1. KBO 선수들의 모든 데이터는 스탯티즈에서 가져왔다. 스탯티즈는 보면 볼수록 놀랍고 대단한 사이트이다. (우리나라의 척박한 야구 기록 환경을 생각하면 더더욱 그렇다.) 단, FIP는 스탯티즈의 데이터를 쓰지 않고 직접 계산하였다. 이유는, 스탯티즈의 FIP가 Constant를 3.20으로 항상 동일하게 사용하고 있고, BB와 IBB의 구분이 이루어지고 있지 않기 때문이다.

2. 여기에서 계산한 선발투수의 WAR는 선발로 등판한 기록만을 대상으로 한 것이다. 한국 프로야구는 투수의 역할이 모호한 경우가 많아 시즌 내내 100% 선발 투수로만 등판하는 투수는 그다지 많지 않으며, 대부분의 선발투수가 구원 등판 기록을 가지고 있다. 따라서, 정확한 계산을 위해서는 해당 투수가 구원으로 등판한 기록을 가지고 구원투수의 WAR를 계산하여 합산해 주어야 할 것이다. (결국 내가 구원투수 WAR를 구하는 방법을 최대한 빨리 포스팅해야 할 것 같다... -_- )


다음은 이 계산을 하고 난 뒤의 소감.

1. 07, 08, 09년 3년간의 FIP Constant를 계산하면서 시즌 스탯을 확인한 결과 시즌과 시즌 사이의 득점 수준 변화가 매우 크게 나타났다. (3년 사이에 타고투저 현상이 심화됨) 팀 수도 적고 게임 수도 적다보니 샘플이 적어져서 데이터의 변동성이 MLB에 비해 훨씬 크게 나타나는 것 같다. (KBO 1시즌 = 1,056게임, MLB 1시즌 = 4,860게임)

2. 그럼에도 불구하고 ERA/RA 비율이 유사하게 나타나는 것을 보면 비슷한 규칙을 가지고 비슷하게 야구를 하니 비슷한 결과가 나온다는 느낌이어서... MLB의 메트릭을 KBO에 적용하는 것이 완전히 엉뚱한 결과를 도출하지는 않을 것이라는 생각이 든다.

3. 류현진은 정말 좋은 투수인 것 같다. 다른 선수들을 많이 계산해 본 적은 없으나 한국야구에서 5 WAR면 엄청나게 높은 수치일 것 같은데... 위의 계산 파일에는 들어있지 않으나, 08년 스탯으로 계산해도 윤석민과 동일하게 3.6 WAR로 나온다.

Posted by FreeRedbird

댓글을 달아 주세요

  1. 홈런강탈 2010.01.17 21:25 Address Modify/Delete Reply

    현수랑 현진이는 볼때마다 와... 대단하구나 라는 느낌을 들게하는 선수들인 것 같네요. 국내가 좁은 탑유망주들 ㅋ 블로그 첫 방문했어요~ 엑셀에 이렇게 친철한 포스팅을 해주시는 분도 드물듯^^ 앞으로 자주방문해서 배우고 갈게요~

    • BlogIcon FreeRedbird 2010.01.18 10:12 신고 Address Modify/Delete

      세이버메트릭스는 하나의 정해진 답이 없기 때문에... 취향대로 자유롭게 변형해서 계산을 직접 해 보실 수 있도록 파일을 제공해 드리고 있습니다. 자주 놀러 오세요~~!

  2. 홈런강탈 2010.02.07 14:59 Address Modify/Delete Reply

    엑셀에 보면 09년 리그자책점이 5048점으로 나와있는데 실제보다 13점이 높네요. 07,08년도 그렇고 혹시 다른계산이 있는건지 궁굼합니다. 그게 아니라면 ERA/RA가 약간 더 낮아지네요. FIP Constant도 살짝 달라지구요. 근데 재밌는게 이게 예전으로 갈수록 격차가 커집니다. 아무래도 수비 수준하고도 상관이 있겠죠^^

    • BlogIcon FreeRedbird 2010.02.08 09:27 신고 Address Modify/Delete

      음... 지금 다시 스탯티즈에 가서 확인해 보니 정말 5035점으로 13점이 차이나네요. 오류의 원인은 잘 모르겠습니다. 급하게 쓰다보니 뭔가 착오가 있었던 듯 하네요. ^^ 시간될 때 수정해 놓도록 하겠습니다. 좋은 지적 감사합니다.

      FIP constant는 저도 07년 시즌에서 2점대가 나오는 걸 보고 깜짝 놀랐습니다. 우리나라 야구는 시즌별 편차가 무척 큰 것 같습니다...

    • BlogIcon FreeRedbird 2010.02.16 18:46 신고 Address Modify/Delete

      리그 자책점을 수정하여 다시 업로드하였습니다. ^^

  3. haia 2010.02.16 08:56 Address Modify/Delete Reply

    그냥 사소한 의문인데 이 계산이 '선발투수의 WAR는 선발로 등판한 기록만을 대상으로 한 것'이라면, 2009년 시즌 류현진의 마지막 등판이 계산에 포함된 것인지 아닌지 궁금해집니다. 9월 25일 경기로 잘 알려진대로 송진우의 은퇴기념경기입니다. 송진우는 1회초 첫 타자를 출루시킨 후(아웃카운트를 잡지 못하고) 내려갔습니다. 이어 류현진이 올라와서 8과 1/3이닝간 11삼진 2실점을 기록했네요.

    • BlogIcon FreeRedbird 2010.02.16 18:48 신고 Address Modify/Delete

      스탯티즈는 해당 경기를 구원등판으로 분류하고 있습니다.
      http://www.statiz.co.kr/index.php?mid=player&name=%EB%A5%98%ED%98%84%EC%A7%84&birth=1987-03-25&opt=22&year=2009&sopt1=9

      따라서, 제 글에 첨부된 파일에서는 이 은퇴경기를 반영하지 않고 있습니다. 참고하세요...

  4. doosan 2011.05.21 20:11 Address Modify/Delete Reply

    2009년 류현진의 WAR가 5.0이라고 계산 하셨는데, 스탯티즈의 WAR는 7.11이라고 나와 있더군요. 왜 그런지 궁금합니다.

    • BlogIcon FreeRedbird 2011.05.24 17:04 신고 Address Modify/Delete

      답이 늦었네요.

      일단 replacement level에 대한 가정이 다르고요. 스탯티즈는 9이닝당 0.175승을 사용하고 있으니 189이닝이면 3.7승 정도 됩니다. 저는 MLB기준을 그대로 가져다 써서 .380의 승률을 가정했고요. 게다가 선발만 따졌기 때문에 181이닝만 반영되어 있습니다. 이를 환산하면 2.4승 정도 됩니다. 일단 여기서 1.3승 정도 차이가 나고 있지요. 이 비교는 어차피 상대 비교이기 때문에 절대값인 replecement level은 얼마로 가정하더라도 별 상관은 없을 것이라고 보았습니다.

      다음에.. 본문을 보시면 저는 선발등판 경기만을 계산했는데요. 스탯티즈는 구원등판한 경기도 포함하고 있습니다. 바로 위 댓글을 보시면 송진우 은퇴경기 같은 경우도 구원으로 분류되어 있는 것을 알 수 있습니다. 구원등판한 경기만 따지면 이것이 0.5승 정도 되는 것 같네요.

      그리고... 저는 FIP를 3.69로 계산했는데 스탯티즈는 3.57로 계산하고 있습니다. 이렇게 되면 대략 0.3승 정도 차이가 나는데요. 이 계산 차이에 대해서는 원인을 잘 모르겠습니다.

      위의 차이를 다 합치면 대략 질문 주신 부분에 대해 설명이 되는 것 같습니다. ^^

    • doosan 2011.06.06 12:24 Address Modify/Delete

      아 그런것이군요.
      명쾌한 답변에 감사드립니다.

  5. leehan508 2013.07.28 22:29 Address Modify/Delete Reply

    우리나라 구장의 Run PF와 Adjusted PF는 어떻게 계산한것인가요? 그리고 Adjusted PF계산할 때, ((Run PF)/100+1)2를 하셨는데 왜 이런 공식을 사용한건가요?

    • BlogIcon FreeRedbird 2013.07.29 15:14 신고 Address Modify/Delete

      Run PF는 정확히 기억나지는 않은데 아마 당시 스탯티즈에서 가져온 값인 것 같습니다. 조정 PF값을 그렇게 구하는 이유는 Run PF는 홈 경기의 PF값이기 때문입니다. 홈 경기 득점 PF가 Run PF/100 이고 원정 경기는 1로 가정하는 것이죠. 원정구장을 1로 보는 것은 구장 수가 많은 MLB에서는 괜찮지만 구장 수가 적은 KBO에서는 다소 오차를 발생시킬 소지가 있으므로, 정확히 계산하시려면 1 대신 원정경기들의 평균 Run PF를 넣어 주어야 합니다.

실점을 막는 것은 득점을 하는 것과 똑같이 중요하다. 점수를 덜 줘서 이기는 것이나 더 내서 이기는 것이나 마찬가지인 것이다. 아니... 실제로는 실점을 줄이는 쪽이 조금 더 유리하다. Pythagorean Expectation 포스팅을 기억하시는지? 실점을 줄이는 쪽이 득점을 더 하는 것보다 약간 기대 승률이 높게 나오는 것이다.

실점을 줄이는 것은 투수와 수비의 몫이다. 특히 야구는 투수놀음이라는 말이 흔히 쓰일 만큼, 투수의 중요성은 막대하다. 수비가 형편없어도, 투수가 상대타자를 모조리 탈삼진으로 돌려세우면 여전히 무실점으로 막아내는 것이 가능하다. 하지만, 투수가 형편없다면, 수비가 아무리 좋아도 안타를 한 개도 허용하지 않는 것은 불가능하다. 심지어 인플레이 된 공은 무조건 잡을 정도로 수비력이 좋더라도, 투수가 던지는 족족 홈런을 허용할 경우 어떻게 해 볼 도리가 없는 것이다.

따라서, 투수의 능력을 측정하는 방법으로 ERA, 즉 투수가 얼마나 점수(자책점)를 내주었는지를 살펴보게 된 것은 어찌보면 당연한 일이었다. ERA는 꽤 오랫동안 투수를 평가하는 척도로 널리 이용되었고, 지금도 WHIP와 함께 가장 흔히 사용되고 있다.

오늘은 ERA 및 ERA의 대체 스탯들을 살펴보게 될 것이다. 그동안 타자에 대해 많이 썼으나 투수에 대해서는 다소 소홀한 감이 있었기에, 투수에 대해 쓰고 싶었던 참에 마침 VEB에서 vivaelpujols의 잘 정리된 글을 보게 되었다. 각각의 개념에 익숙치 않은 분들을 위하여, 좀 더 자세히 설명해 보고자 한다.


1. ERA (Earned Run Average)

ERA를 모르시는 분들은 아마 거의 없으리라 생각되지만, 기초를 다지는 의미에서 다시 한 번 짚고 넘어가도록 하겠다. 먼저 ER(Earned Run, 자책점)에 대한 이해가 필요한데, 투수의 잘못으로 내준 점수를 자책점이라고 하고, 투수의 잘못이 아닌 실점을 비자책점이라고 한다. 안타나 홈런, 볼넷 등으로 내준 점수는 기본적으로 자책점이지만, 만약 주자가 수비수의 에러로 인해 출루한 경우에는 비자책점으로 분류한다. 에러는 투수의 잘못이 아니라는 것이다. 여기서 재미있는 것은 투수 본인의 에러로 점수가 난 경우에도 비자책점이 된다는 것이다. 공을 던지는 사람으로서의 투수와 야수로서의 투수를 구분하고 있다는 의미이다.

ERA는 9이닝당 자책점의 비율을 의미한다. 즉, 다음과 같이 계산된다.

ERA = ER * 9 / IP

ERA에 대한 비판은 여러 가지 관점에서 생각할 수 있다. 우선, ER을 계산하는 방식의 문제이다. 예를 들어, 에러로 주자가 출루한 후 적시타를 맞아 주자가 홈인했다면, 이는 비자책점이 된다. 하지만, 에러는 수비수의 잘못이더라도 이후 적시타를 맞은 것은 일정 부분 투수의 책임이 있다. 그럼에도 불구하고 이 점수는 그냥 비자책점이 될 뿐으로, 투수에게 책임을 묻지 않는다. 또한, 2사 만루 상황에서 구원투수가 등판하여 주자일소 3루타를 맞고 3실점한 후 후속타자를 아웃시켜 이닝을 마무리한 경우, 모든 실점의 책임은 주자 3명을 내보낸 앞의 투수에게만 전가될 뿐, 3루타를 맞은 구원투수는 무실점으로 기록된다. 2사 만루에서 불을 끄는 것이 그의 임무였고, 그는 임무에 실패했지만, ER은 계산되지 않고, 따라서 ERA도 전혀 나빠지지 않는다.

다음은 좀 더 근본적인 문제인데... 점수를 내 주지 않는 것이 투수 혼자의 공이 아니라는 점이다. 실점을 막는 것은 투수와 수비 모두의 공이다. 뛰어난 수비수들이 뒤에 있다면, 투수의 ERA가 낮아지는 것은 당연한 것이다. 즉 실점을 얼마나 했는가는 팀 전체의 스탯인데도, ERA는 마치 투수 혼자만의 스탯인 것처럼 취급한다.

그리고... 자책점과 비자책점을 가르는 주요한 변수인 "에러"에 대해서도 문제를 제기할 수 있다. 특정 타구가 에러인지 안타인지를 판단하는 것은 일정 부분 기록자의 주관이 개입된다. (내야안타는 특히 그렇다.) 또한, 수비수는 어려운 타구를 무리하게 건드려서 에러를 낼 수도 있지만, 그냥 보수적으로 수비하여 안타를 내줄 수도 있다. 같은 타구가 수비수의 능력과 성향에 따라 에러도 될 수 있고 안타도 될 수 있는 것이다. 투수의 능력과 상관없이 자책/비자책이 결정되고, 이를 통해 투수가 평가받는 것은 불합리하다고 할 수 있다.

혹은 투수에 따라 단지 운이 없어서 안타를 유난히 많이 맞아 실점을 많이 하는 경우도 있을 것이다. BABIP는 상당 부분이 운에 의해 좌우되고, BABIP가 높으면 아무래도 실점을 하기 쉬워지므로, 자책점과 비자책점을 아무리 잘 분리해 낸다고 해도 운의 개입은 피할 도리가 없다. 운이 없어 실점을 많이 했는데 ERA가 높다고 욕을 먹게 된다면 꽤나 억울할 것이다.


2. FIP (Fielding Independent Pitching)

FIP는 옛날에 블로그에서 이미 다룬 바 있으나, 다시 한 번 정리해 본다.

실점을 기준으로 투수를 평가하게 되면 "수비"와 "운"이라는 방해 요소가 섞이는 것을 피할 수가 없으므로, 이런 투수와 상관없는 요소를 완전히 제거해버린 새로운 스탯이 개발되었다. 바로 FIP이다. FIP는 Tom Tango에 의해 처음 개발되었고, 이후 여러 사람에 의해 개량되었다.

과거 BABIP에 대한 선구적인 연구로 유명해진 Voros McCracken의 경우 BABIP는 투수의 능력과 거의 아무런 상관이 없다는 극단적인 주장을 했었는데, 이후 여러 사람의 추가 연구에 의해 BABIP는 운, 수비의 능력, 투수의 능력, 구장 효과 등 다양한 요인에 의해 결정된다는 결과를 얻게 되었다. 이 중에서 가장 큰 영향을 끼치는 Factor는 역시 "운"으로 나타났다.

FIP는 타자가 방망이로 공을 맞춰서 인플레이 된 경우, 즉 BABIP의 영향을 받는 경우를 모두 무시한다. 여기서 "인플레이"라 함은 타구가 페어 지역에 떨어져서 수비가 개입하게 된 모든 경우를 말하는 것이다. (파울플라이는 파울 지역에 떨어진 공이지만 수비수가 잡아서 아웃 처리하였으므로 역시 인플레이로 간주한다.) 이런 부분을 모두 제거하고 나면, 남는 것은 수비수들이 공에 손을 댈래야 댈 수 없는 플레이들만 남게 된다. 바로 홈런, 볼넷, 사사구, 삼진이 그것이다. FIP는 이들 스탯만을 이용하여 아래와 같이 계산한다.

FIP = (13*HR + 3*(BB-IBB+HBP) - 2*K) / IP + C

여기에서 C는 FIP를 ERA와 유사한 Scale로 만들어 주기 위한 상수(Constant)이다. 이 상수는 대체로 3.20 부근의 값을 가지는데, 매년 조금씩 변화한다. C를 구하는 방법은 아래와 같다.

C = (9*lgER + 2*lgK - 13*lgHR - 3*(lgBB-lgIBB+lgHBP)) / lgIP

여기에서 lgER은 League Total ER을 의미하며, lgHR, lgBB 등도 마찬가지로 리그 전체 합계를 이용한다. 위와 아래의 식을 비교해 보면, 이렇게 C를 계산할 경우 리그 평균 ERA와 리그 평균 FIP는 항상 똑같은 값을 가지게 됨을 알 수 있다. 참고로, 2009년 메이저리그의 C값은 3.18이며, 리그 평균 ERA와 리그 평균 FIP는 모두 4.32였다. 이렇게 만들어 준 덕에, FIP는 ERA와 유사한 값을 가지게 되므로 한 눈에 알아보기가 쉽다. 3.00 ERA가 좋은 것처럼, 3.00 FIP도 좋은 것이다.

FIP의 문제는, 인플레이된 공이 어떻게 되었는지를 완전히 무시하는 것이다. 위에서 언급했듯이, 비록 BABIP의 가장 큰 요소는 "운"이지만, 투수의 능력도 분명 한 몫을 하고 있는 것이다. 우리가 상식적으로 알고 있듯이, 투수의 구위가 좋으면 타자들이 좋은 타구를 잘 만들어내지 못하는 것은 일정 부분 사실이다. ERA가 투수의 능력과 상관없는 부분을 지나치게 많이 포함하고 있다면, FIP는 반대로 투수의 능력이 실제로 작용하는 부분을 일부 무시한다는 결점을 가지고 있다. 또한, FIP에는 park adjust가 이루어지지 않았다는 것도 문제로 지적된다. 그럼에도 불구하고, 수비와 운이라는 가장 큰 노이즈 요소를 배제하였다는 점에서, FIP는 투수의 순수한 능력을 평가하는 좋은 잣대가 된다.

FIP는 FangraphsThe Hardball Times 에서 찾을 수 있다.


3. xFIP

xFIP는 기본적으로 FIP와 계산 방법이 같은데, 한 가지 중요한 차이가 있다. 위의 FIP 식에서 실제 피홈런 숫자를 넣는 대신 고정된 HR/FB 비율을 이용하여 계산된 이론적 피홈런 숫자를 넣는 것이다. 이렇게 하는 이유는... 볼넷과 삼진, 사사구는 투수의 능력에 의한 것이지만, 피홈런의 경우 "운"과 "구장 효과"가 많이 작용되는 점을 고려하여 이를 보정한 것이다. 일반적으로 HR/FB 비율은 0.11이 이용된다. 투수의 능력 이외의 요소가 작용하는 부분을 제거하고자 함에 있어서, FIP보다도 더욱 철저한 스탯이라고 할 수 있다.

xFIP는 The Hardball Time에서 찾을 수 있다. 참고로 Adam Wainwright의 페이지를 링크하였다.


4. tRA

tRA는 FIP의 약점인 "인플레이된 공을 완전히 배제하는 것"을 보완하고자 Graham MacAree가 개발한 스탯이다. tRA의 기본 컨셉은, 마치 wOBA로 공격력을 측정할 때와 같이, Run Expectancy로부터 각 이벤트의 Expected Run Value를 구하여 이를 9이닝(27아웃)에 대한 예상 실점으로 바꾸어 산출하는 것이다.

이 페이지는 Stat Corner의 tRA 설명 페이지이다. 이 페이지에는 2008년의 이벤트별 Run Value가 나와 있는데, 이를 보면 tRA에 사용되는 스탯 혹은 이벤트를 알 수 있다. 즉, 삼진, 볼넷, 사사구, 라인드라이브, 그라운드볼, 외야플라이, 내야플라이, 홈런 갯수가 계산에 사용되는 것이다. 각각의 스탯에 각각의 Run Value를 곱하여, 27아웃을 기록하는 동안 예상되는 Run Value의 합을 구하면 바로 9이닝 당 예상 실점이 된다. ERA가 9이닝당 자책점인 데 비해, tRA는 위의 이벤트 별 스탯을 바탕으로 9이닝당 예상 실점을 구하는 것이다. 이 과정에서, 수비의 수준과 홈구장 등은 모두 중립으로 조정된다.

이 tRA는 Stat Corner 및 Fangraphs에서 만날 수 있다.

중립적인 환경을 만들기 위해 조정을 실시하고, 타자의 방망이에 맞은 타구에 대한 투수의 영향력을 반영하고자 한 점에서, FIP보다 진보한 아이디어의 스탯이라고 할 수 있다. 그러나, Stat Corner와 Fangraphs에서 동일한 선수들을 비교해 보면, 같은 스탯임에도 불구하고 tRA가 서로 다르게 계산되어 있음을 발견하게 된다. 예를 들어, Chris Carpenter의 tRA는 Fangraphs에서 3.02, Stat Corner에서 2.77로 나온다. 이러한 차이가 발생하는 이유는, tRA가 라인드라이브, 그라운드볼, 플라이 등 인플레이 된 공을 어떻게 기록하느냐에 따라 달라질 수밖에 없기 때문이다. 타자가 친 공이 라인드라이브인지, 플라이인지, 그라운드볼인지를 결정하기 위해, Fangraphs는 BIS의 PbP 데이터를 이용하는 반면 Stat Corner는 MLB Gameday의 PbP 데이터를 이용한다. 특히 플라이볼과 라인드라이브의 구분에는 어느 정도 애매한 부분이 존재할 수밖에 없으므로, 기록자의 주관적 판단에 따라 기록이 달라지고, 결국 tRA 값이 영향을 받게 된다. FIP를 보완하기 위해 인플레이 된 결과물을 반영한 결과, 기록자의 주관적 판단이 개입되는 오차가 생긴 것이다. 이것이 tRA의 단점이다.


5. tRA*

tRA*는 tRA에 회귀분석을 적용한 스탯이다. 삼진 비율, 볼넷 비율, 사사구 비율, 그라운드볼 비율 등 모든 이벤트의 발생 비율에 대해서 해당 투수의 커리어 year-to-year correlation을 바탕으로 해당 시즌에 몇 명의 타자를 상대했는 지를 감안하여 적절한 수준의 regression을 해 주는 것이다. tRA*는 투수들 간의 퍼포먼스를 비교하기보다는 해당 투수가 앞으로 어떤 성적을 내줄 지를 예상하기 위한 목적으로 개발되었다.

tRA*는 Stat Corner에서 찾을 수 있다.



그럼 어떤 스탯이 투수를 평가하는 데 가장 좋은 스탯일까? 지금까지 살펴 보았듯이 단 하나의 정답은 없다. ERA에는 투수의 능력과 상관없는 다른 요소가 많이 개입되어 있다. FIP, xFIP는 투수의 능력 이외의 다른 것을 제거하려고 하다가 투수의 능력이 작용하는 부분까지 잘라내 버렸다. tRA는 이를 보완하려고 시도하였으나 대신 Play by Play 기록자의 주관이라는 새로운 노이즈가 추가되었다.

개인적으로는 이들 중 FIP 및 xFIP를 주로 참고하는 편이다. ERA에 포함되는 이런저런 외부 요소가 너무 많아서 도무지 신뢰할 수가 없기 때문이다. FIP에는 빠진 부분이 분명 존재하나, "운"이라는 요소를 배제하는 부분에서는 꽤 성공적인 스탯이라고 할 수 있다. 몇 가지의 Raw Stat만으로 쉽게 계산되는 것도 큰 장점이다. 또한 좋은 FIP를 받는 것(볼넷과 홈런을 덜 허용하고 삼진을 많이 잡는 것)이 수비의 질과 상관없이 실점을 막는 데 좋은 결과를 얻게 한다는 점은 부인할 수 없을 것이다.


투수에 관한 다음 포스팅에서는 투구 이닝 및 투수의 가치(Value: 투수의 WAR)에 대해 써 볼 예정이다.

(이 글은 한국야구팬사이트에서도 보실 수 있습니다.)


Today's Music : Lynyrd Skynyrd - Free Bird (Live)



이쯤에서 이 블로그와 뗄래야 뗄 수 없는 곡을 소개해야 할 것 같다. FreeRedbird라는 필명은 이 곡의 제목에서 온 것이다. Viva El Birdos에서 활동하기 위해 SB Nation에 가입하려고 할 때... 아이디를 뭘로 할까 고민하던 중 이 곡을 듣게 되었다. 결국 곡 제목을 아이디로 쓰기로 했고, Cardinals 팬이라는 정체성을 나타내기 위해 Red를 중간에 삽입하여 FreeRedbird가 탄생한 것이다. 그런데... 지나고 나서 생각해보니 FreeRedbird보다는 RedFreebird가 좀 더 낫지 않았을까 하는 후회가 들기도 한다. ^^

어쨌거나... Gary Rossington의 슬라이드 기타, 그리고 곡 중후반부에 이어지는 기타 3대의 현란한 연주가 잊을 수 없는 감동을 선사하는 명곡이다.

Posted by FreeRedbird

댓글을 달아 주세요

  1. camomile 2009.12.01 13:20 Address Modify/Delete Reply

    개인적으로 FIP는 투수스탯을 볼때 아예 배제하고 보는 스탯입니다. 인플레이상황에서 안타가 될 확률, 즉 BABIP가 모든 투수에게 동일하게 적용된다는 기본 가정부터 말이 안되는 스탯이기때문입니다. 제가 보기엔 FIP혹은 BABIP가 말하는 '운'이란 요소를 적용하려면 한 선수, 즉 그 선수의 커리어 내에서만 판단해야하는 것이죠. 전성기를 달리고 있는 A라는 투수의 BABIP 5년기록이 예를 들어 .258/.267/.245/.313/.263 이라고 가정할 경우 A의 4번째 시즌은 운이 나쁜 것이 맞습니다. 하지만 투구스타일이 틀린 B와 C 두 선수의 경우 B의 전성기 5년간 BABIP가 .258, C의 5년간 BABIP가 .313이라 해서 C가 B보다 운이 나쁜 투수였다고 말하는 것은 말도 안된다는 소리죠. 또한 D라는 투수의 전성기 5년간 BABIP가 .258이고 은퇴전 5년간 BABIP가 .300이라 해서 D의 전성기는 운이 좋았고 말년엔 운이 나빴다고 할 수 없는 것이죠. 투수마다 투구스타일에 따라 각각의 고유한 BABIP를 가지는데 리그전체 BABIP를 보고 각 투수의 그해스탯을 운이좋았다나빴다고 판단하는 것은 분명한 오류입니다. 그리고 삼진 많이 잡는 투수에 대한 과도한 고평가가 내재되어있는 스탯이기도 하구요. BABIP가 삼진율이 높으면 급격히 높아지는 스탯입니다. 즉, '9이닝당 삼진을 많이 잡는 투수일수록 운이 나쁜 투수'가 되는 것이죠. 계산식 자체에도 분명한 한계가 있는 스탯임에 틀립없지요.

    • BlogIcon FreeRedbird 2009.12.01 18:00 신고 Address Modify/Delete

      우선... 제가 늘 말씀드리는 바와 같이... 특정한 하나의 스탯만 가지고 선수를 평가할 수 있는 방법은 없습니다. 각 스탯의 장점과 한계를 파악하고 목적에 따라 그때그때 복합적으로 참고하는 것이 좋은 방법이 되겠지요.


      그냥 예를 들어서 말씀하신 숫자임은 잘 알고 있습니다만... BABIP .258과 같이 극단적으로 낮은 수치는 Hoyt Wilhelm(커리어 BABIP .253)이나 Ed Walsh(커리어 BABIP .260) 과 같은 옛날 투수들에게서나 흔히 볼 수 있을 뿐, 현재 활동중인 투수들의 BABIP 차이가 그렇게 크게 나타나는 일은 별로 없습니다...

      님께서는 서로 다른 시대와 리그에서 뛰었던 선수들 간의 절대적 비교 및 표준화에 관심이 많으신 것으로 생각합니다. 리그 평균 BABIP가 서로 다른 1950년대와 2000년대의 투수를 그냥 비교하여 단순히 운이 좋았다 나빴다 라고 이야기하는 것은 당연히 말도 안되는 일이죠. 비교를 위해서는 리그 평균을 고려한 조정이 있어야 할 것입니다.

      허나 같은 시대에 같이 활동하는 투수들의 BABIP 차이는 그다지 많이 나는 것으로 보이지 않습니다. 같은 시대를 살아가는 투수들끼리의 비교에서는 BABIP의 차이에 대해 어느 정도(절대적이라는 게 아니고 "어느 정도"임을 다시 강조합니다.) 실력과 상관없는 요소가 개입하고 있음을 인정해야 하지 않을까 생각됩니다.

      현역 투수들의 커리어 BABIP 분포에 대해서는 개인적으로 조금 더 research를 한 뒤 말씀드리죠. BABIP와 탈삼진 비율 간의 관계 역시 제가 직접 연구를 조금 하고 나서 답변을 드리겠습니다.

      BABIP가 투수와 아무 상관이 없다는 McCracken의 주장은 너무 극단적인 것임을 이미 본문에서 말씀 드렸습니다. 투수의 구위가 좋으면 타자가 범타를 많이 치는 것은 당연한 일이죠. 다만 제가 강조하고 싶은 것은 투수의 능력이 BABIP에 미치는 영향은 "제한적"이라는 것입니다.

      투수의 BABIP를 결정하는 데 있어 각 요소가 미치는 영향의 상대적 비율에 대해서는... Baseball Prospectus의 책 <Baseball between the Numbers>의 "When Does a Pitcher Earn an Earned Run" 챕터를 참고하시면 다음과 같이 나옵니다.

      Luck 44%
      Pitcher Ability 28%
      Defense 17%
      Park Effect 11%

      즉 투수의 능력이 28%이고, 투수 능력 이외의 부분이 72%인 것이죠. 이 숫자가 얼마나 정확한지는 모르겠습니다만... 단지 28%만 투수 고유의 능력이 반영되는 BABIP에 대해 "각각의 투수가 고유의 BABIP를 갖는다"고 하시면 비약이 되지 않을까요?? 투수의 능력과 상관없는 부분이 훨씬 크게 작용하니까요.

      FIP와 같이 인플레이 된 공을 모두 무시하게 되면... 이 28%를 잃어버리게 됩니다. 그만큼 부정확한 부분이 생기는 것은 인정합니다만, 투수가 컨트롤할 수 없는 나머지 72%를 제거함으로써 얻는 이득이 훨씬 크지 않을까요? 저는 그렇게 생각하기에 FIP를 즐겨 사용합니다.

      camomile님께서는 투수를 평가할 때 어떤 rating stat을 주로 사용하시는지요...??


      그리고.. 이것은 포스팅에 좀 시간이 걸릴 것 같습니다만... FIP는 사실 BABIP를 완전히 배제하는 스탯은 아닙니다. 단지 regression이 된 거죠. 인플레이된 공에 대한 평가는 다른 요소들의 앞에 붙어 있는 가중치(홈런에 13, 삼진에 -2, 볼넷 및 HBP에 3)에 사실 약간씩 녹아 들어 있습니다. 이것은 좀 방대한 이야기가 될 것 같기도 하고, 개인적으로 아직 정리가 안된 부분도 있어서요.. 나중에 별도의 글로 정리하고자 합니다.

  2. camomile 2009.12.02 12:00 Address Modify/Delete Reply

    긴~글을 적었는데, 남의 블로그에 와서 이렇게 긴 글을 댓글로 올린다는 자체가 약간 민망하기도 합니다.^^

    FIP의 주된 문제중 하나는 9인게임인 야구에서, 수비의 능력을 완전히 배제한다는 데 있습니다. 완전히 배제하기보다는 Replacement Revel의 수비를 상정하는 것이 더 합리적이라는 이야기죠. 수비의 능력을 완전히 배제함으로써 탈삼진형투수가 극도로 유리한 비정상적인 결과가 산출된다는 것이 굉장히 큰 문제입니다. 게임당이닝도 더 많고(IP/G), 9이닝당 홈런도 더 적고(HR/9), 9이닝당 볼넷도 더 적고(BB/9), 평균자책(ERA) 및 9이닝당 출루허용률(WHIP)에서도 압도적인 그렉 매덕스가 단지 삼진이 더 적다는 이유로, 보다 직접적으로 말하자면 인플레이상황을 더 많이 만든다는 이유로 FIP상에서 랜디 존슨에 비해 저평가를 받게된다는 것은 상식밖의 일입니다.

    저는 BABIP는 리그전체의 투수에게 동일한 값이 적용되어야하는 것이 아니라 투수에 따라 고유한 값을 가진다고 첫댓글에서 언급했는데요. 과연 그런지, 그것이 또한 직관적으로도 들어맞는지를 우선 검증하는 것이 필요하다고 생각합니다. 우선 인플레이상황에서 안타가 될 확률은 도대체 무엇에 의존하는지를 살펴봐야합니다. 일단 타구의 질을 들 수 있겠죠. 통계적으로 라인드라이브타구의 75%는 안타가 된다고 합니다. 그라운드볼은 25.2%, 플라이볼은 12.8%구요. 즉, 땅볼형투수는 플라이볼형투수에 비해 BABIP가 높을 가능성이 큽니다. 그렇다면 땅볼형투수는 플라이볼형 투수에 비해 BABIP 혹은 FIP에서 '운이 나쁜 투수'로 평가받을 확률이 높습니다. 직관적으로 봐도 플라이볼형투수는 홈런을 많이 허용하는 선수이므로, 점수를 허용할 확률이 땅볼형투수에 비해 더 높겠죠. 이 부분에서 FIP는 설명력이 아주 높은 스탯입니다.

    그렇다면 라인드라이브타구는 누가 결정하는가? 물론 타자의 영향이 매우 큽니다. 좋은 타자는 통계적으로도 LD%를 높게 유지하구요. 그 외 배드볼히터의 경우 나쁜공에도 뱃이 나가므로 LD%는 낮을 것이고, 반대로 선구안이 좋은 선수는 LD%가 높을것으로 예측됩니다. 실제로 선구안이 매우 좋다고 평가되는 푸홀스의 경우 커리어 LD%가 19.5%, 배드볼히터로 평가되는 게레로의 경우 12.5%군요. 전성기로 짤라서봐도 비슷합니다. 하지만 여기서 문제되는 것은 라인드라이브타구는 타자에게 전적으로 의존하는가?입니다. 만약 그렇다면, BABIP로서 리그 투수 전체의 일반적인 평균기준을 적용해서 각 투수마다 운이좋다나쁘다를 말할 수 있는 하나의 근거가 될수도 있겠고, FIP역시 스탯으로서 설명력이 매우높아질 수 있을 것입니다.

    그렇지만, 답은 라인드라이브타구에 투수의 능력이 개입될 여지가 있다는 겁니다. 각 투수의 투구스타일에 따라 고유한 BABIP를 가지게 되는 것이 이 답에 대한 근거가 될 수 있겠죠.

    Fangraph에서 BABIP순위를 살펴보면 BABIP와 운지수(ERA-FIP)는 거의 정비례관계를 가집니다. 즉, BABIP가 높을수록 그 투수는 운이 나쁘다고 보는 것이죠. FIP라는 스탯 자체가 BABIP를 기본개념으로 해서 만들어진 스탯이므로 당연하다 하겠습니다.

    이제 투수들을 BB/9를 기준으로 유형화해보겠습니다. 상식적으로 생각해볼때, 볼넷이 많은 투수가 BABIP가 높을까요 볼넷이 적은 투수가 BABIP가 높을까요? 당연히, 볼넷이 적은 투수가 BABIP가 높을수밖에 없습니다. 볼넷이 많은, 즉 제구가 나쁜 투수의 경우 스트라이크비율이 떨어지게되며 타자들은 그 투수의 스트라이크보다 볼을 쳐서 인플레이상황을 만들 확률이 높아지게 되고, 따라서 범타의 비율도 증가하게되는 것이죠. 그렇다면 볼넷이 많은 투수는 항상 BABIP가 낮고 볼넷이 적은 투수는 항상 BABIP가 높을까요? 당연히, 그렇지 않습니다. 볼넷이 많더라도 구위가 좋은 투수의 경우에는 볼을 던지더라도 타자들에게 효과적인 유인구로 받아들여지게되고, BABIP도 그만큼 낮출수있겠죠. (ex. 전성기의 박찬호, 배리 지토) 하지만 볼넷이 많으면서 구위도 형편없는 투수의 경우엔 볼은 유인구로서의 기능을 못하게되고 타자들은 스트라이크만 골라서 치게되므로 오히려 BABIP가 높아지게됩니다.

    볼넷이 적고 구위가 좋은 투수의 경우 자신의 구위를 믿고 가운데로 공격적피칭을 하는 경우가 많습니다. 이런 투수의 경우 피안타율도 낮고 삼진율도 높지만 한번맞게되면 좋은타구가 나올 가능성(LD%)이 높아지게 되죠. 즉, BABIP는 높아지게 됩니다.(ex. 전성기의 랜디 존슨, 커트 실링) 아마 삼진이 많아지게 되므로 BABIP((H-HR)/(AB-K-HR+SF))는 확실히 높아지게 되겠죠. 예외적으로, 볼넷이 적은데도 불구하고 BABIP까지 낮은 경우가 있는데, 제구혹은 공의 무브먼트가 매우 좋아 스트라이크존의 구석으로 공을 꽂아넣는 선수들이 이에 해당합니다.(ex. 전성기의 그레그 매덕스, 페드로 마르티네즈) 뭐 타자가 맞춰봐야 범타밖에 되지 않으니 BABIP는 낮을 수 밖에 없겠죠.

    위의 직관적 가정을 바탕으로 Fangraph에서 최근 5년간 BABIP순위를 보면서 한번 분석해보도록합시다. 최근의 기준으로 BABIP는 .300이상이 300미만보다 더 많습니다. 일단 .300이상을 BABIP가 높은선수, .300미만을 낮은선수라고 가정하고, 첫 번째, BABIP.300미만의 선수중 BB/9가 2.00이 안되는 선수를 A타입, 두 번째, BABIP.300이상의 선수중 BB/9가 3.00이 넘는 선수, 그 중에서도 BB/K가 2.00미만이며 HR/9가 1.00이 넘는 선수를 B타입이라 가정한후 이들을 가려보겠습니다. A타입 선수는 제구가 좋은데도 BABIP가 낮은 예외적인 경우이고, B타입 선수는 제구가 좋지 않으면서 구위가 나쁘지도 않은데 BABIP가 높은 예외적인 경우입니다. “제구혹은 무브먼트가 너무 좋아서 BABIP가 낮을 수 밖에 없는 선수”는 일단 제외하겠습니다.

    2005: A - 페드로 마르티네즈, 존 갈랜드, 앤디 페팃, 요한 산타나, 제프 위버, 크리스 카펜터, 바톨로 콜론, 브래드 래드키, 카를로스 실바, 존 리버, 랜디 존슨, 그레그 매덕스, 마크 벌리 / B - A.J 버넷, 맷 클레멘트, 존 래키
    2006: A - 로이 할라데이, 요한 산타나, 크리스 카펜터, 데이빗 부쉬, 그레그 매덕스, 마이크 무시나, 댄 하렌 / B - 비센테 파디야, 에릭 베다드,
    2007: A - 제임스 쉴즈 / B - 켈빔 에스코바르, 스캇 카즈미어
    2008: A - 리키 놀라스코, 제세 리치, 데릭 로, 폴 버드, 그레그 매덕스, 제임스 쉴즈, 로이 할라데이 / B - 맷 케인, 에딘손 볼퀘즈, 길 메쉬, 랜디 울프, 팀 린스컴, 펠릭스 에르난데스, 채드 빌링슬리, A.J 버넷
    2009: A - 테드 릴리, 크리스 카펜터, 댄 하렌, 마크 벌리, 조엘 피네이로, 하비에르 바스케스 / B - 호르헤 델라 로사

    보통 80명 내외의 선발투수중 연평균 10명 정도의 예외 선수가 나오는데요. 사실상 A타입의 선수의 경우 아까 얘기했던 제구가 너무 좋아 스트라이크존의 구석으로 공을 던지기 때문에 BB/9가 낮은데도 BABIP가 낮은 경우까지 생각한다면 순수한 예외선수는 8명도 안된다고 봐야겠지요. 05년의 페드로, 페팃, 산타나, 카펜터, 매덕스, 벌리 06년의 할라데이, 산타나, 카펜터, 매덕스, 하렌 07년의 쉴즈 08년의 매덕스, 쉴즈, 할라데이 09년의 카펜터, 하렌, 벌리 정도가 “제구혹은 무브먼트가 너무 좋은 경우”에 해당하는 투수라고 보입니다. 할라데이, 산타나, 매덕스, 카펜터, 하렌, 벌리는 예외 선수 명단에 꾸준히 들고 있는 것을 보면 BABIP가 투구스타일에 따라 고유한 값을 가진다는 가정이 더더욱 맞아떨어진다고 보여지네요. 나머지 예외선수들은 그야말로 BABIP 혹은 FIP가 얘기하는 운이 좋았던/나빴던 선수라고 보여지구요.

    이처럼 라인드라이브의 확률, 나아가서 BABIP에 투수가 미치는 영향도 상당하구요. 이에 따라 FIP라는 스탯은 ERA를 궁극적으로 대체할수 없는 스탯이라고 생각합니다. 제가 이런 의문을 가지게 된 첫 번째 이유는 94,95의 매덕스보다 01~04의 랜디가 FIP가 훨씬 좋다는 점, 99페드로가 00페드로에 비해 FIP가 훨씬 좋다는 점 때문이죠. 조정방어율 구하는 공식으로 조정FIP를 구해봐도 마찬가지구요. 00페드로의 경우 사실 지켜보는 입장에서 입이 다물어지지않는 퍼포먼스를 보여줬죠. 끝도 없는 삼자범퇴, 무시무시한 포심과 체인지업은 쳐봐야 범타, 당연히 BABIP가 낮게 나올수밖에 없는 상황인데도 BABIP나 FIP상에서는 단지 운이 좋은 투수로 치부되는 점, 게임당 8이닝을 먹고 53경기 출장에 고작 54개의 볼넷을 내주고 12개의 홈런만 맞았으며 역시 줄창 던져대는 투심은 쳤다하면 범타, BABIP가 높아질 수가 없었던 94.95의 매덕스가 FIP에서는 운좋은 투수로 치부되는 점은 정말 상식밖이라 생각합니다. (그것도 94년의 ERA-FIP는 -0.83, 95년의 ERA-FIP는 -0.63 FIP에 따르면 94.95의 매덕스는 2년 연속으로 무지막지하게 운좋은 투수였다는 것이죠)

    저는 아직도 ERA를 궁극적으로 대체할 스탯은 없다고 보이며, 피OPS를 보조적으로 보고, 또한 그 해 최고의 투수를 평가하는데는 리그및시대조정된 Pitching Runs, 혹은 PRAR을 사용합니다. 물론 K/9, BB/9, K/BB, HR/9, BABIP 같은 경우 이처럼 투수의 스타일을 알려주는데 도움이 되죠. 하지만 Fangraph처럼 FIP를 기준으로 투수의 시즌공헌도(WAR)를 평가하는건 상당히 문제가 있다고 생각합니다. FIP로 보면 95년 최고의 투수는 도끼네 매덕스가 아니라 시애틀의 랜디 존슨이 되는데 이게 과연 투수의 능력을 더 정확히 보여주는 잣대인지 매우 의문이 드네요.(조정FIP로 봐도 95매덕스 187, 95랜디 226입니다.) ERA가 문제많다많다하지만 당해투수의 퍼포먼스를 이정도까지 왜곡하지는 않거든요.

    • BlogIcon FreeRedbird 2009.12.02 19:04 신고 Address Modify/Delete

      민망해하실 필요는 없습니다. ^^ 사실 camomile님과 같이 좋은 의견을 주시는 분들에게 Viva El Birdos의 Fanpost와 같은 게시판을 내어 드리고 싶은데요... 아쉽게도 티스토리가 게시판 기능을 지원하지 않는 것 같습니다. 제로보드를 붙이는 것도 불가능하고... 이런 논의가 그냥 댓글 속에 파묻혀 버려서 좀 더 많은 사람들이 볼 수 없는 것이 너무 안타깝네요. 혹 국내에 블로그와 게시판을 동시에 지원하는 서비스가 있나요?? 좋은 곳이 있다면 이사를 고려할지도 모르겠습니다.

      어쨌거나... 본론으로 돌아가서... 남겨주신 글을 무척 흥미롭게 잘 읽었습니다. 라인드라이브의 영향 같은 것은 이미 공감하고 있는 부분이기도 합니다.

      일단 FIP는 수비의 능력을 배제하는 것이 아니고 수비를 리그 평균으로 regression하는 것입니다. 모든 투수의 등 뒤에 똑같은 수준의 수비수들이 있다고 생각했을 때의 퍼포먼스를 계산하는 것이죠. (또한 여기서 가정되는 것은 Replacement Level 수비수가 아니고 리그 평균 수비수 입니다.)

      Maddux와 Big Unit 간의 비교에서.. IP/G는 FIP나 ERA와 같은 레이팅 스탯과는 무관합니다. WAR나 VORP와 같이 Value를 구할 때 문제가 될 수 있겠지요.

      FIP에서 각 이벤트에 붙어 있는 계수(홈런 13, 볼넷 3, 삼진 -2)는 각 이벤트의 Run Expectancy로부터 산출된 것입니다. 소숫점으로 되어 있는 것을 정수화하는 과정에서 약간의 오차가 생길 수는 있습니다만, 탈삼진 투수를 특별히 과대평가하지는 않습니다. FIP가 좋다는 것은 상대 공격의 Run Expectancy를 떨어뜨리므로, 실점을 덜 하게 될 확률이 높아지는 것이죠.

      제가 볼 때는 Big Unit이 과대평가된 것이 아니고, Maddux가 과소평가된 것입니다. 아무리 봐도 Maddux는 다른 투수들에 비해 범타를 유도하는 능력이 뛰어났던 것 같은데, FIP에서 이를 적절히 반영해 주고 있지 않기 때문이죠. Maddux와 Big Unit의 비교에는 FIP 뿐 아니라 이러한 범타 유도 능력, 그리고 수비수들의 능력이 실점에 어떠한 영향을 미쳤는지까지 종합적으로 고려되어야 할 것입니다. 물론 얼마간의 "운"도 있었겠죠. 측정이 어렵지만 말입니다.

      라인드라이브 비율, 즉 LD%는 어느 정도 투수 고유의 수치를 가지는 것이 사실입니다. 그리고 말씀하신 대로 BABIP가 LD%의 영향을 받는 것도 사실이죠. 이렇게 보면 BABIP에 투수가 어느 정도 영향을 미치고 있는 것이 사실이고(저는 이것을 부인한 적이 한 번도 없습니다.), 따라서 FIP의 약점이 됩니다. 문제는 "얼마나 영향을 주는가" 입니다.

      Baseball Prospectus의 2009년 연구 결과를 보겠습니다. 대상은 2003-08년의 투수들 입니다.

      http://www.baseballprospectus.com/article.php?articleid=8932

      투수 스탯의 year to year correlation은 다음과 같이 나와 있습니다.
      K/PA 0.7686
      UIBB(고의사구가 아닌 볼넷)/PA 0.6682
      HR/PA 0.3769
      BABIP 0.2242
      투수 BABIP - 소속팀 수비 BABIP 0.1490

      만약 BABIP가 투수 고유의 skill이라면, 각 투수들의 year to year correlation이 높게 나타나야 할 것입니다. 투수별로 자기 커리어 내에서 BABIP의 편차가 크지 않아야 한다는 것이죠.

      그러나, 보시다시피 BABIP의 year to year correlation은 .2242로 낮은 편이며, 특히 수비의 영향을 배제하기 위해 소속팀 수비 BABIP를 빼 줄 경우 correlation은 0.15 수준으로 떨어집니다. 이 정도면 "미미한 상관관계"밖에 없다고 표현해도 될 것 같습니다. 0.15의 correlation을 가지는 스탯에 대해 "투수마다 고유의 숫자를 가진다"고 표현하는 것은 무리가 아닐까요?? 저는 Maddux와 같은 투수는 정말 특별한 예외의 case라고 생각합니다.

      반면, K 비율이나 BB 비율은 상관관계가 매우 높게 나타납니다. HR 비율의 경우 K나 BB보다는 약하지만 BABIP에 비하면 여전히 우수한 상관관계를 보여주고 있습니다. 이를 바탕으로 볼 때, BABIP를 포기하고 이보다 훨씬 투수 고유의 능력을 잘 보여주는 K, BB, HR 비율을 이용하여 산출하는 FIP가 다른 스탯들에 비해 우수하다고 보는 것이 충분히 합리적이지 않을까요? (HR비율의 correlation이 비교적 낮은 것이 신경쓰이시면 xFIP를 이용하시면 되지요.)

      이왕이면 BABIP에 미치는 투수의 약한 영향력도 고려해 주면 더욱 좋을 것입니다. 그래서 LD%를 포함하는 tRA가 개발되었습니다. 하지만, 본문에서 지적한 바와 같이 PbP 데이터를 기록하는 사람의 주관이 포함된다는 새로운 문제가 나타나게 됩니다. 만약 GB와 LD, FB를 무 자르듯 명확히 구분할 수 있다면, tRA가 가장 좋은 스탯이 되겠지요.

      참고로.. 첫 댓글에서 "삼진율이 높으면 BABIP가 급격히 증가"하고 다음 댓글에서 "볼넷이 적으면 BABIP가 높다"고 말씀하셨는데요.. 역시 Baseball Prospectus의 연구결과를 보면... BABIP와 삼진 비율 사이에는 -0.138의 미미한 역 상관관계가 있으며(삼진율이 높으면 BABIP가 내려가는 매우 약한 상관관계가 존재), 볼넷 비율과 BABIP 사이에는 -0.002로 아무 상관관계가 없습니다.
      http://www.baseball-analysis.com/article.php?articleid=9595

      ERA나 WHIP, 피OPS 등은 투수의 능력을 평가하는 유용한 도구가 되기에는 부족함이 너무 많습니다. ERA에 대해서는 이미 본문에서 네 가지의 중요한 문제점을 말씀 드렸습니다. 한 가지 예를 더 들어보죠. 8회 2사 만루에서 투수의 실투로 인해 2루타를 맞고 3실점하면, 에러와 투수교체가 없었다는 가정 하에 3 ER이 됩니다. 만약 9회말 동점 상황에서 2사 만루였고, 똑같이 투수가 실투하여 2루타성 타구를 맞았다면, 이번에는 1점이 나는 순간 게임이 끝나기 때문에 1실점만 한 것으로 처리되어 1 ER이 됩니다. 만약 앞의 두 경우에 있어서 중간에 수비 에러가 하나 끼어 있었다면, 똑같이 실투로 2루타를 맞았더라도 이번에는 0 ER이 됩니다. 투수는 이 모든 경우에 똑같이 실투를 하여 2루타를 맞았지만, 자책점은 제각기 다르고, 투수에 대한 평가도 모두 다르게 됩니다. 이런 엉터리 스탯이 과연 투수의 퍼포먼스를 제대로 평가할 수 있을까요? 만약 "상황" 혹은 Sequence라는 변수를 반영하고 싶으시다면 차라리 WPA가 대안이 될 수 있을 것입니다.

      WHIP은 볼넷, 1루타, 2루타, 3루타, 홈런을 모두 똑같이 취급하고, 게다가 고의사구와 보통 볼넷도 똑같이 취급합니다. 이게 얼마나 문제가 많은 접근법인지는 설명을 드리지 않아도 될 것 같습니다...

      피OPS는 OPS와 동일한 문제를 안고 있습니다. 1) 출루율과 장타율을 1:1로 반영하는 것, 2) 출루율 계산시 WHIP와 동일한 문제가 발생하는 것(모든 출루 이벤트를 똑같이 취급), 3) 장타율 계산시 안타의 가치가 타자주자가 진루한 베이스 숫자에 비례한다고 가정하는 것... 이렇게 세 가지 문제가 발생하죠. 2)와 3)이 상쇄되면 좋겠지만 안타깝게도 그렇게 되지 않습니다. 차라리 피wOBA나 피EqA가 나을 듯 합니다.


      ps. 선구안과 LD%의 상관관계는 잘 이해가 되지 않는데요.. Fangraphs에 의하면 Vladimir Guerrero의 커리어 LD%는 19.2%입니다. 또다른 배드볼 히터인 Garciaparra의 커리어 LD%는 21.8%로 Pujols보다도 높습니다. 선구안과 BB%는 밀접한 관계가 있겠지만... LD%와 관계가 있을지는 의문입니다. (이것은 나중에 시간 될 때 제가 직접 엑셀을 돌려 보도록 하지요...)

  3. camomile 2009.12.03 00:17 Address Modify/Delete Reply

    말씀대로 조정된 피wOBA나 피EqA를 제공해주는 사이트가 있다면 저는 피OPS보다 피wOBA,피EqA를 보조적으로 사용하겠습니다. 또한 LD% 게레로에 대한 건 제가 실수를 했네요. 죄송합니다.

    ERA나 WHIP가 당면한 문제점이 많은 것은 저도 인정하는 바입니다. 하지만, 이 두 스탯은 리그 전체 투수에 동일하게 적용되는 문제점입니다. ERA의 경우 '자책점'이라는 개념에 대한 갑론을박으로 일부에서는 ERA보다 RA(평균실점률)을 사용하기도 하지요.

    하지만, FIP의 문제점은 리그 투수들에게 동일하게 적용되지 않습니다. FIP로 투수를 평가하기 위해서는 투수의 스탯이 쌓이면 쌓일수록 그 투수의 커리어 ERA와 커리어 FIP는 수렴해야 정상입니다. 하지만 톰 글래빈 같은 투수의 경우 매년 FIP에 비해 상당히 낮은 ERA를 보이고 있습니다. 커트 실링의 경우 매년 FIP에 비해 상당히 높은 ERA를 기록하고 있구요. 글래빈은 매년 그렇게 운이 좋았던 것일까요? 실링은 매년 그렇게 운이 나빴을까요? 과연 BABIP에 투수가 미치는 영향이 미미한 수준으로 봐야하나요? 유인구를 많이 섞는 글래빈의 경우 범타유인률이 높아 BABIP를 낮게 유지할 수 있었으며, 무시무시한 구위의 포심과 스플리터로 타자와 정면승부를 고집했던 실링은 잘맞은 타구가 나올확률이 높아 BABIP를 높게 유지할 수 있다고 보는것이 더 옳지 않을까요?

    여기 또 한명의 선발투수가 있습니다. 이름은 랜디 존슨이라고 하죠. 이 선수는 초창기에는 A급 구위를 가졌으나 B~C급의 제구력을 가진 선수였습니다. 하지만 이 선수는 1995년을 기점으로 원래 A급이었던 구위가 A++급으로 올라갔고(K/9 10.0이상->12.0이상) 제구는 급격히 좋아졌습니다. (BB/9 3.0~7.0 -> 3.0미만) 제가 앞글에서 가정한 바 대로 이 선수의 BABIP를 예측해보죠. 이 선수는 95년 전에는 구위는 좋지만 제구가 딸려서 볼넷도 많이 주고, 타자들은 이 선수의 볼을 치다가 범타가 될 확률이 높아질 것 같네요. BABIP는 따라서 낮겠군요. 95년 이후의 이 선수는 제구도 좋고 구위는 메이저리그 올타임으로 따져도 5손가락안에 들 선수지요. 주구장창 자신의 구위를 믿고 정면승부를 할 가능성이 높겠군요. 타자들은 거의 손도 못대겠지만, 일단 맞으면 잘맞은 타구가 될 가능성이 높을것 같군요. BABIP는 높지 않을까요?

    실제로 랜디존슨이 풀타임을 뛴 89년부터 94년까지의 BABIP변화는 293,258,286,286,283,296입니다. 95년 이후 전성기의 마지막이라고 평가되는 04년까지의 BABIP변화는 321,313,291,333,306,336,328,300,357,283입니다. 이상하지 않습니까?

    Freeredbird님께서는 FIP상에서 그렉 매덕스는 과소평가되었다고 하셨는데, 제가 보기에는 매덕스 뿐만 아니라 글래빈, 전성기의 지토도 마찬가지입니다. 일일이 찾아보면 더 많은 선수가 나올 것 같네요. FIP로 투수를 평가한다면, 이런 선수들은 어떻게 구제하나요? 모든 선수를 일관된 잣대로 평가할 수가 없는데, 과연 그 Tool이 유용할 지 의문입니다.

    또한, 득점과의 Correlation 등 세이버매트리션들은 여러가지 각도에서 회귀분석을 하고 있는데요. 저는 Correlation이 높고, RMSE가 낮다고 해서 더 합리적인 스탯이라고 생각하지 않습니다. 왜냐하면 리그 전체 데이타로 분석해봐야 개별 선수관점에서 보면 분명히 달라지게되있거든요. 대표적 타격스탯인 Runs Created. 이제는 문제점이 너무 많은 스탯이기도 하지만, 그 많은 문제점 중 하나가 바로 준족의 선수가치를 완전히 무시하고 있다는 것이죠. 도루-도실의 even point 계산은 물론 득점과의 Correlation을 통해서 산출해냈겠지만, 사실 팀전체 RC를 구해봐도 도루의 가치는 도실에 의해 무의미해집니다. 개인적 관점에서 본다면 더더욱 그렇죠. 다른 스탯이 모두 같은 A와 B의 선수중 A는 1도루 0도실, B는 70도루 25도실을 했다고 가정시 RC상에서는 A선수가 B선수보다 높게되죠. 하지만 진짜 선수의 가치는 누가 더 높을까요? A,B 출루시 후속타자의 더블플레이확률, 후속타자 단타시 A,B의 추가베이스진루현황, A,B 출루시 배터리의 집중력 분산 및 투수의 멘탈에 미치는 영향, 실제 B도루시 포수의 송구에러...일일이 따져보지않아도 A보다 B가 더 가치있는 선수임에 분명하지만, RC에서는 그것을 반영하지 못하죠. 득점과 도루간 Correlation이 극히 미미하기때문에 EqA보다 wOBA의 Correlation이 더 높고 RMSE가 더 낮다는 것도 이해되는 것이죠. 하지만 제가 생각하기에 "선수개인"을 평가하는데 있어서 EqA는 wOBA보다 더 좋은 스탯입니다. 게다가 EqA는 도루-도실의 이븐포인트를 RC나 XR과 달리 합리적으로 잡고 있죠. 즉, 준족인 선수에 대한 가치를 더 높게 평가하고 있습니다. 치환시 발생하는 문제점을 없애기위해 치환하지 않고 단순한 RawEqA로 봐도 EqA는 상당히 합리적인 스탯이죠. 말이 좀 딴데로 갔는데, 세이버상에서의 다중회귀분석은 방법론상으로 적절치못하다는 것은 아니지만, 선수개인의 평가차원에서 그것을 그대로 적용하는 것은 빠뜨리는 부분이 많다는 것입니다. 세이버가 득세하는 최근에도 스몰볼은 여전히 야구의 큰 부분을 차지하고 있습니다. 희생번트, 도루, 힛앤런 같은 작전들이 큰 틀에서 보면 팀승률에 도움이 되지않을지몰라도 당시 경기상황, 즉 투수가 왼손투수인지 오른손투수인지, 다음 타자의 수준이 어떻게 되는지, 주자의 주루플레이가 평균이상인지, 포수의 어깨 및 포구능력이 어떻게 되는지에 따라 팀승률에 결정적인 역할을 할 수 있다고 생각됩니다.

    뭐 잠깐 산으로 갔지만, 결론은 BABIP는 통계적 결론에도 불구하고 투수에 의해 상당한 부분이 통제된다고 생각합니다. 따라서 FIP로 투수를 평가했을때, 분명히 그로 인해 피해를 보는 투수가 존재하므로 기존의 스탯을 대체할만큼 유용한 스탯이라고 보기에는 무리가 있다는 것이 제 주장입니다.

    • camomile 2009.12.03 00:24 Address Modify/Delete

      사족입니다만 우리의 소중한 리그 NO.1 Absolute Ace Chris Carpenter 역시 FIP의 가장 큰 피해자 중 하나라고 확신합니다.

    • BlogIcon FreeRedbird 2009.12.05 01:43 신고 Address Modify/Delete

      FIP 하나로만 투수를 평가한다면, 삼진, 볼넷, 홈런(플라이볼) 이외에 BABIP를 낮게 유지할 수 있는 다른 능력을 가지고 있는 투수일수록 본의아니게 피해를 입게 되겠지요. 그렇기 때문에 저는 LD%를 계산에 반영하는 tRA를 가장 중요한 보조 스탯으로 사용합니다. (아.. 본문에서 빼먹었는데.. tRA는 ERA가 아니라 RA Scale의 스탯입니다.)

      "모든 선수를 일관된 잣대로 평가할 수 없는데, 과연 그 Tool이 유용할 지 의문"이라고 하셨습니다만...
      모든 투수에게 공정하고 모든 투수에게 공평한 스탯이 존재하나요? ERA가 모든 투수에게 공정한가요? ERA나 WHIP이 FIP보다 공정하다고 볼 수 있는 근거가 무엇인지 잘 모르겠습니다. (FIP가 심지어 WHIP과 비교되게 되다니 불쌍하다는 생각도 드네요... ㅎㅎㅎ)

      ERA의 무수히 많은 문제점은 이미 여러 번 말씀드렸으니 더 이상 반복하지는 않겠습니다만... ERA의 특성상 수비력이 좋은 팀에서 뛰는 투수가 그렇지 않은 투수에 비해 실점을 덜 하게 되어 유리할 수밖에 없는데... 이것은 너무나도 불공평한 것이지 않은가요? 앞의 댓글에서 보여드린 것처럼 이전 투수가 내보낸 주자는 아무리 많이 홈으로 들여보내도 본인에게는 아무런 영향이 없는데, 이것이 과연 공정한 규칙인가요? 저에게 어느 쪽이 덜 불공정한 스탯인지를 물으신다면.. 역시 FIP의 손을 들어 주겠습니다.

      WHIP의 경우는 볼넷, 1루타, 2루타, 3루타, 홈런을 모두 동일하게 취급하므로... 볼넷 100개를 내준 투수와 1루타 100개를 맞은 투수, 홈런 100개를 맞은 투수가 모두 똑같은 WHIP을 가지게 됩니다. Run Value로 보면 홈런의 가치는 볼넷이나 1루타보다 3배 이상 많은데요... WHIP에서는 모두 동일한 가치를 가지는 것처럼 같은 값으로 regression 되어 버립니다. 즉... WHIP는 장타를 많이 얻어맞는 한심한 투수에게 유리한 스탯인 것입니다. 저는 ERA에 대해 매우 비판적이기는 해도 투수를 볼 때 참고 스탯으로 같이 활용하고 있습니다만... WHIP는 거의 쓸모 없는 스탯으로 생각하여 참고하지 않습니다. 참, 저도 ERA보다는 RA를 더 중시하는 쪽이기도 합니다.


      투수의 탈삼진 능력과 BABIP의 관계에 대해 말씀하신 가정은 저도 일리가 있다고 생각했기에, 제 나름대로 어설프게나마 검증을 시도해 보았습니다. 먼저 Baesball-Reference에서 1990년부터 2009년까지 20년 동안 1000IP 이상을 던진 투수 211명의 스탯을 다운받아서 K/9와 BB/9, BABIP사이의 상관관계를 구해 보았습니다. 그 결과는 이전 댓글에서 말씀드린 Baseball Reference의 결과와 거의 동일했습니다. K/9와 BABIP 사이에는 무척 미미한 음의 상관관계가 있었고(K/9가 높아지면 BABIP가 아주 조금씩 떨어진다는 거죠. 어차피 상관계수가 0.17에 불과하고 결정계수가 0.03이어서 설명력 자체가 별로 없습니다만.) BB/9와 BABIP 사이의 상관관계는 다중상관계수 0.003으로 전혀 아무런 상관이 없었습니다.

      여기까지 한 뒤에, 이것은 전체 리그를 대상으로 한 계산결과이고, 개별 투수들을 대상으로 하면 뭔가 다른 결과를 얻을 수 있지 않을까 라는 생각이 들었습니다. 말씀하신 Randy Johnson의 예처럼 말입니다. 그래서, 위의 1000IP 이상 투수들 211명 중에서 투구 이닝 수 상위 15명을 대상으로 각 투수의 커리어 내에서 다시 K/9와 BABIP의 관계에 대해 회귀분석을 시도해 보았습니다. 211명을 전부 다 하기에는 시간이 없어서요...

      분석대상 15명의 명단은 다음과 같습니다.

      Greg Maddux, Tom Glavine, Randy Johnson, Roger Clemens, Mike Mussina, Jamie Moyer, David Wells, Curt Schilling, Kenny Rogers, John Smoltz, Kevin Brown, Andy Pettitte, Pedro Martinez, Livan Hernandez, Chuck Finley

      실제로는 Tim Wakefield가 12위인데 너클볼러는 너무 특수한 케이스인것 같아 제외하였고, 대신 16위인 Finley를 넣었습니다. 모두들 쟁쟁한 이름들이죠... 마침 투구 스타일도 제각각이고.. 좋은 샘플들이라고 생각합니다.

      이들 각각의 커리어에서 50이닝 이하를 던진 해는 제외하고 year to year correlation을 구해 본 결과, 말씀하신 것과 같은 K/9와 BABIP 사이의 양의 상관관계, 즉 탈삼진 능력이 향상되면 BABIP가 올라간다는 것이 확인되는 투수는 Big Unit과 Smoltz 두 명 뿐이었습니다. Greg Maddux와 Livan Hernandez의 경우는 반대로 상당히 의미있는 음의 상관관계가 도출되었고요... 나머지 11명은 유의미한 상관관계를 찾을 수 없었습니다. Kevin Brown 같은 경우는 커리어에서 Randy Johnson 이상으로 드라마틱한 K/9 비율의 변화를 보였습니다만(4점대의 K/9에서 시작하여 9까지 올라갔다가 다시 서서히 내려옵니다) 상관계수가 0.08에 불과할 만큼 아무런 유의미한 관계를 도출하지 못했습니다. camomile님의 가설은 매력적입니다만, 아쉽게도 통계적으로 검증이 잘 되지는 않는 것 같습니다. Randy Johnson이 마침 제안하신 가설과 잘 들어맞는 예였던 것이지요.


      사실 똑같은 것은 아니지만, 비슷한 연구 결과가 있습니다. Tango/Litchman/Dolphin의 <The Book>에서 고의사구에 관한 챕터를 보시면 투수가 그냥 승부를 하는 경우와 Pitch Around하는 경우를 비교한 데이터가 있습니다. 이들도 "투수가 정면승부하지 않으면 타자가 제대로 맞추는 경우가 적을 것이다"라는 기대를 가지고 계산했으나 결과는 전혀 그렇지 않았습니다. 기대와 달리 그냥 승부할 때나 Pitch Around할 때나 거의 똑같았던 것이죠.

      Correlation과 RMSE가 모든 것을 설명해주지는 못합니다. 통계는 결국 도구일 뿐이지 그 자체가 목적인 것도 아니고요. 하지만 적어도 현 시점에서는 매우 유용한 접근 방법으로 널리 공인되어 있는 방법입니다. 절대적인 Best는 아니더라도 우리가 생각할 수 있는 수준의 합리적 접근이라고 생각이 되고요. 이것마저 부인하신다면 우리가 어떤 방법으로 야구의 통계적인 데이터를 분석하고 일반적인 결론을 도출하려는 시도를 할 수 있는지 잘 모르겠습니다. 이전 댓글에서 K/9의 연간 상관계수가 0.7686이고 수비를 뺀 BABIP의 연간 상관계수가 0.1490이라고 말씀 드렸습니다. 이는 K/9가 BABIP에 비해 0.7686/0.1490=5.16배 더 정확히 투수 고유의 능력을 잘 보여준다는 의미는 절대 아닙니다. 하지만, 이정도로 큰 상관계수의 차이가 존재한다면, 투수의 K/9에 대한 controlability는 BABIP에 대한 controlability에 비해 현저히 높다고 말해도 되는 것이 아닐까요? 적어도 이정도를 인정할 수는 있을 것 같은데요...

      중간에 RC를 비판하신 부분은 동감합니다. 물론 EqA가 wOBA보다 더 좋은 스탯이라는 부분만 빼고요. ^^ 저는 어디까지나 계속 wOBA의 편입니다.

      다만... 세이버메트릭스의 득세에도 불구하고 스몰볼이 여전히 야구의 큰 부분을 차지하고 있다고 한다면.. 그 득세하고 있는 세이버메트릭스가 잘못된 것입니다. 스몰볼을 무시하고 폄하하는 것은 세이버메트릭스 커뮤니티가 OBP를 무조건 신성한 스탯으로 떠받들던 한 10년 전 쯤의 이야기입니다. 희생번트가 무조건 나쁘다는 것도 그 시절의 주류 이론이었죠.

      Moneyball 책에 묘사된 세이버메트릭스가 그런 것일 수도 있겠네요. 책에서 워낙 스카우트와 스몰볼을 쓰레기 취급하고 있으니까요... 확실히 Oakland에서 Jeremy Giambi가 리드오프를 치던 시절의 세이버메트릭스는 실제로 그런 면이 있었고... 어쨌든 Billy Bean 단장의 Oakland Athletics가 계속 플레이오프 진출에 성공하고 Moneyball 책도 대박을 치면서 그런 이미지가 굳어진 측면도 있습니다.

      하지만 제가 블로그와 여러 게시판을 통해 공유하고자 하는 세이버메트릭스는 그런 편견 덩어리가 아닙니다. 최근에는 희생번트나 도루와 같은 플레이에 대해, 이전보다 훨씬 객관적인 시각에서 조명이 이루어지고 있습니다. 예를 들어, 다시 Tom Tango를 인용하자면, 주자가 1루에 나가서 도루가 가능한 상황이 되면, 타석에 들어선 타자의 wOBA는 평균 0.015 상승합니다. 1루주자로 인해 수비가 흔들리는 증거인 것이죠.

      역시 논의가 산으로 갔습니다만, 저는 역시 BABIP가 통계적 결론과 상관없이 투수에 의해 상당 부분 통제가 가능하다는 님의 결론에 동의해 드릴 수 없습니다. 이 문제는 McCracken이 BABIP에 대해 BP에 글을 쓴 이후 지금까지 약 10년 동안 세이버메트릭스 커뮤니티에서 가장 활발히 논의된 주제이지만, 앞의 댓글에서 보여드린 2009년 BP 연구에서 보시는 바와 같이 여전히 "BABIP에 대해 투수가 미치는 영향은 작다"는 것이 대세입니다. 남의 이야기를 무조건 신뢰하지는 않기에, 그리고 님의 가설이 설득력이 있다고 생각했기에, 저도 저 나름대로 통계적 검증을 시도해 보았습니만, 저 역시 투수가 BABIP의 상당히 큰 부분을 통제할 수 있다는 아무런 증거를 얻지 못했습니다. 또한, 투수가 BABIP에 미치는 영향은 제한적이므로, FIP는 충분히 유용한 스탯이며, ERA와 비교해도 상대적으로 공정한 스탯이라고 생각합니다.


      포스팅이 아니라 댓글을 달기 위해 이렇게 데이터를 잔뜩 받아서 분석하고, 며칠 동안 생각을 하게 될 줄은 몰랐습니다. 다만 님의 주장하시는 바에 동의를 해 드리기 어려운 것은 안타깝네요. ㅎㅎㅎ 저로서는 댓글을 통한 논쟁을 거치면서 오히려 FIP와 tRA를 주로 참고하는 제 방법에 오히려 더 신뢰를 가지게 되었습니다. ^^ 저와는 많은 부분에서 관점이 다르시지만 그래도 저는 님의 의견을 존중합니다. 언젠가는 제가 틀린 것으로 판명이 날 수도 있는 것이겠지요.

      우리나라는 세이버메트릭스 인구가 별로 없다보니 이런 토론을 할 기회도 찾기 어려운 것 같습니다. 앞으로도 계속 관심 가져 주시고 좋은 의견 부탁 드립니다. ^^

  4. camomile 2009.12.07 00:19 Address Modify/Delete Reply

    제가 WHIP를 보조적으로 사용하는 이유는 WHIP만큼 투수의 도미넌트함을 그대로 보여주는 지표가 없다고 생각하기 때문입니다. 경기보다보면 아 이선수 정말 잘한다는 느낌을 받는데 보통 WHIP가 굉장히 낮은 경우가 많더라구요. 즉, WHIP가 극히 낮은 선수(<1.0)는 운이나 이런 것보다 자신의 능력으로 도미넌트한 스탯을 찍는 경우가 많은데 보통 투수들의 경우 WHIP가 1이하로 떨어지면 대부분 자신의 커리어 BABIP보다 상당히 낮은 시즌BABIP를 기록하는데 이는 WHIP가 낮은 시즌의 그 투수는 스스로 안타를 억제할 수 있을만큼 도미넌트했다고 볼 수도 있겠지요.

    또한 BABIP는 단순히 BB/9, K/9등과 회귀분석을 돌려 상관관계를 보는 것 보다는 투수를 BB/9.K/9,피안타율,HR/9,WHIP 등을 기준으로 유형화해서 살펴봐야될 것 같아요. 실제로 구위가 어느정도 되면서 제구가 좋지 않은 투수를 AVG<.240, BB/9>3.50으로 유형화해서 살펴보니 총 35번의 시즌 중 29회(82.9%)가 자신의 커리어BABIP보다 낮은 BABIP를 기록했구요.(참고로 제 표본은 Freeredbird님의 표본투수+Al Leiter, David Cone, Mike Hampton, Park Chan Ho, Nomo Hideo, C.C. Sabathia, Cliff Lee, Tim Lincecum, Josh Beckett, Roy Halladay, Chris Carpenter, Brandon Webb, Jake Peavy, Roy Oswalt, John Lackey, Ben Sheets, Brad Penny, Barry Zito, Tim Hudson, A.J. Burnett, Carlos Zambrano, Johan Santana, Dan Haren, Javier Vasquez입니다.) 압도적으로 도미넌트한 시즌(WHIP<=1.0)을 보낸 투수는 그해 자신의 커리어BABIP보다 보통 낮은 BABIP를 기록한 경우가 많더군요.(23회중 20회, 87.0%)

    제가 뜻하는 바가 제대로 전달되었는지 모르겠는데(말주변이 없어서;;) 즉 각 스탯의 추세를 보면서 상관관계를 따지는 것 보다 투수를 스탯에 따라 유형화해야된다는 것이죠. BB/9가 낮은 투수, 높은 투수로 유형화할 것은 아니고 두 투수가 BB/9가 낮더라도 K/9, 피안타율, WHIP등에 따라 전혀 다른 투수가 된다는 것이죠.

    원초적으로 한결같이 BABIP가 낮은 투수와 한결같이 BABIP가 높은 투수가 있다면 당연히 의심을 해봐야하는 것이 아닌가 싶네요. 하지만 저도 이번 토론을 통해 FIP를 완전 배제하고 보는 스탯이 아니라 상당히 참고할만한 스탯이라는 점에는 공감을 하게 되었네요. 역시 팀수비에 따른 운이란 요소는 배제를 하는것이 당연하니까요.

    하지만 95 매덕스와 95 랜디는 FIP에 따르면 시즌을 100회 돌릴 경우 95 랜디가 95 매덕스보다 더 좋은 성적을 올릴 가능성이 높다고 보는 것인데 상당히 동의하기 힘드네요. 페드로 역시 시즌을 100회 돌리면 99년이 00년보다 훨씬 압도적인 성적을 거둔다는 것인데 과연?? 이란 생각이 듭니다. 페드로가 00년 세운 MLB 올타임 WHIP, 피안타율, 피출루율은 운에의한 것이었다는 것인데 글쎄요.

    암튼 Freeredbird님이 말씀하신 것처럼 좋은 토론이었구요. 질문하나 드리고 싶은게 있는데요. Fangraph의 WPA계산시 인플레이된후 유격수가 잡아서 1루수에게 어시스트를 한 경우, +되는 것은 투수가 아니라 유격수와 1루수인가요?

    • BlogIcon FreeRedbird 2009.12.07 11:26 신고 Address Modify/Delete

      그렇군요. WHIP가 한 눈에 "힐끗" 보기에는 쓸모가 있을 지도 모르겠네요. 물론 저는 WHIP 특유의 모든 이벤트를 똑같은 가치로 취급하는 regression 외에도 WHIP가 결국 피안타율과 BABIP에 큰 영향을 받는다는 것 때문에 거부감이 있습니다만... 나름 활용할 여지도 있을 것 같습니다.

      말씀하신 내용은 제 입장에서는 정반대로 생각하는 것도 가능합니다. 특정 시즌에 어떤 이유로 인해 BABIP가 낮다 보니 피안타율이 낮고(AVG <.240) 따라서 WHIP도 낮고, 도미넌트한 시즌을 보냈다고 인과를 뒤집어 해석할 수도 있는 것이죠. 이런 부분은 좀 더 연구가 필요한 것 같습니다. 그리고, 말씀하신 것처럼 스탯에 따라 투수를 유형화하는 것은 좋은 아이디어인 것 같습니다.

      시즌을 100번 돌리면 어느 쪽이 더 성적이 좋을까... 역사에 if가 없으니 알 수 없지만... 저라면 그래도 FIP가 낮은 쪽에 걸겠습니다. ^^ 이거 OOTP라도 가지고 실험을 해 볼까 하는 생각도 드네요. 물론 선수의 능력치를 어떻게 세팅하느냐에 따라 결과가 달라질 것 같아서 객관적 실험이 어렵겠지만 말입니다...

      WPA에 대해서는 저도 좀 더 살펴보고 답을 드리겠습니다.

    • BlogIcon FreeRedbird 2009.12.30 04:24 신고 Address Modify/Delete

      Fangraphs의 WPA 계산에서는 수비수에게 WPA가 가지 않으며, 오직 타자와 투수에게만 적용합니다. 이렇게 되면 공격측은 그렇다 치더라도... 수비쪽은 투수와 수비 간에 책임을 나누는 문제가 생기게 됩니다.

      HBP나 BB, K, HR, WP 등과 같은 플레이의 경우 아무 문제가 없습니다만... "잡을 수 있을 것 같은 공인데 수비수가 잡지 못한 안타"라든지, "잡을 수 있는 공을 놓친 에러"의 경우, 상당 부분 수비에게 책임이 있을 것입니다. 혹은 "매우 어려운 타구였으나 뛰어난 수비로 아웃 처리한 경우", 역시 상당 부분 수비에게 공이 있겠지요. 하지만 이렇게 책임 혹은 공을 투수와 수비 사이에서 나누는 것은 주관적인 판단의 영역이므로, Fangraphs는 모든 상황을 아예 100% 투수 책임으로 돌림으로써 주관의 개입을 배제해 버린 것이지요.

      투수 입장에서 한 시즌을 풀로 뛰다 보면 수비 덕분에 WPA에서 이득을 보는 때도 있고 손해를 보는 때도 있을 것이니 어느 정도는 상쇄될 것 같습니다만... 결국 좋은 수비수들과 같은 팀에서 뛰고 있다면 아무래도 WPA 계산에서도 이득을 보겠지요. 좋은 수비수들이 호수비로 아웃을 더 많이 만들어내지만, 그 공은 모두 투수에게 돌아가도록 되어 있으니까요...

  5. asd 2012.07.24 02:40 Address Modify/Delete Reply

    라인드라이브 비율, 팝업 비율 같은 경우는 투수가 상당부분 제어 가능한 영역인가요?

  6. k 2012.09.14 19:22 Address Modify/Delete Reply

    Expected Run Value라는 건 모든 투수에게 동일하게 적용되는 건가요?
    페드로처럼 출루를 매우 적게 허용하는 투수와 지토처럼 항상 주자를 쌓아놓는 듯한 투수는 똑같이 홈런을 하나 맞더라도 파생되는 실점이 차이가 날 것 같은데

    • BlogIcon FreeRedbird 2012.09.17 13:32 신고 Address Modify/Delete

      각 event의 run value는 리그 전체 기준이므로 모든 투수에게 똑같이 적용됩니다. Pedro와 Zito의 차이는 event별 run value의 차이가 아니라, event 자체의 발생 빈도에서 나타나게 됩니다. Zito는 Pedro보다 볼넷을 더 많이 허용하고, 라인드라이브도 더 많이 허용하므로, 당연히 주자도 더 많이 내보내고 실점도 더 많이 하게 되는 것입니다.

최근 Fangraphs나 The Hardball Times 같은 세이버메트릭스 사이트들에 힘입어 소위 advanced stat 들이 유행하게 되었다. FIP, wOBA, WPA, UZR, tRA 등이 대표적인 예인데, 그 중에서도 특히 많이 쓰이고 있는 것이 바로 FIP 이다.

FIPFielding Independent Pitching의 약어로, 단어 안에 그 의미가 이미 드러나 있다. 즉 "수비와 무관한 투구 stat"이라는 것이다. 자세한 계산 방법은 뒤에서 알아보고, 우선 전통적인 stat의 문제점부터 살펴보자.

전통적으로 사용되는 투수의 stat으로는 W-L, ERA, WHIP 등을 꼽을 수 있겠다. W-L, 즉 승-패는 투수를 평가하는데 거의 아무짝에도 쓸모가 없는 상징적인 숫자에 불과하다. 투수가 아무리 잘 던져도 타선이 뒷받침해주지 않으면 투수는 절대로 승수를 쌓을 수가 없는 것이다. 즉 투수의 승수와 패수는 팀 전체의 합작품이지 투수의 능력을 나타내는 지표가 될 수 없다. (이런 별 의미없는 숫자가 Cy Young 상의 중요 기준이 되고 있는 듯하여 씁쓸하다...)

ERA와 WHIP의 경우는 승-패 만큼 단순하지는 않으므로.. 조금 더 들여다볼 필요가 있다. ERAEarned Runs Average, 즉 평균자책점을 의미한다. ("방어율"이라는 기존의 번역은 의미상 부적절하다.) 여기서 "자책점"은 투수에게 책임이 있는 실점을 의미한다. 즉, 에러 등으로 주자가 출루하지 않고 순전히 안타와 볼넷, 사사구, 보크 등으로 내준 점수를 의미하는 것이다. 그러면 투수가 자책점을 얼마나 내줬는지는 충분히 의미있는 지표가 될 수 있지 않을까? 세이버메트릭스의 답은 "Hell no... 절대 아니다..." 이다.


볼넷이나 사사구는 당연히 투수의 책임이고 여기에 이의를 제기하는 사람은 없다. (스트라이크존이 유난히 넓거나 좁은 특정 심판을 탓할 수도 있겠지만... 그건 통계의 범위를 벗어나는 통제불가능한 변수이므로 따지지 말자.) 논쟁의 핵심은 안타에 있다. 도대체 안타의 어디까지가 투수의 책임일까? 똑같은 타구에 대해서... 좋은 수비수는 공을 잡아서 아웃으로 처리할 수 있지만, 나쁜 수비수는 공을 못잡고 안타로 만들어 버린다. "자책점"의 빌미가 된 안타 중에는 인간의 능력으로는 어쩔 수 없는 아주 잘 맞은 진짜 안타들도 있겠지만, 수비수의 형편없는 수비로 인해 안타가 되어버린 운 좋은 타구들도 제법 들어 있을 수 있는 것이다. 따라서, 안타의 발생 확률은 투수 뒤에 서 있는 수비수들의 수비 능력에 종속되게 되고, 결국 안타를 포함하는 stat으로 투수의 능력을 정확히 평가하기는 어렵다는 결론이 나오게 된다.

WHIPWalks and Hits per Innings Pitched의 약어이다. 우리말로 뭐라고 번역하는 지는 잘 모르겠다. 계산식은 (BB+H)/IP로 매우 단순하다. 투수가 한 이닝에 주자를 얼마나 내보내는지를 볼 수 있다고 해서 한때 각광받던 stat이었다. 그러나, 위의 ERA와 마찬가지로 WHIP도 피안타 수가 직접적으로 결과값에 영향을 미치는 구조를 가지고 있고, 따라서 안타의 수비 종속성에 대한 같은 논리를 통해 투수의 능력을 정확히 평가하기에는 부족하다는 결론을 얻게 된다.

그럼 어떤 대안이 있을까? 세이버메트릭스 진영에서 가장 널리 쓰이고 있는 것이 바로 FIP 이다. 수비수들의 능력과 상관없이 오직 투수만이 관여하는 수치인 삼진, 볼넷(사사구 포함), 홈런 만으로 투수의 진짜 능력을 판별하는 공식을 만들어낸 것이다.

Tom Tango가 개발하고 이후 여러 사람의 손을 거쳐 개량된 FIP의 일반적인 공식은 다음과 같다.

FIP = (13*HR+3*(BB-IBB+HBP)-2K)/IP + 3.20

HR은 홈런, BB는 볼넷, IBB는 고의사구, HBP는 사구(데드볼), IP는 투구 이닝 수를 의미한다.
맨 끝의 3.20은 상수인데... FIP의 결과값을 ERA(또는 RA)과 유사한 스케일로 치환하기 위해 더해 주는 값이며, 이 값은 각 사이트에 따라 자체적으로 조금씩 다른 값을 쓰고 있다.

예를 들어... 박찬호의 전성기였던 1998년과 2000, 2001년 성적을 보자.
1998년: 15승 9패 3.71 ERA, 220 2/3 IP, 1.34 WHIP, 16 HR, 97 BB, 191 K, 1 IBB, 11 HBP
2000년: 18승 10패 3.27 ERA, 226 IP, 1.31 WHIP, 21 HR, 124 BB, 217 K, 4 IBB, 12 HBP
2001년: 15승 11패 3.50 ERA, 234 IP, 1.17 WHIP, 23 HR, 91 BB, 218 K, 1 IBB, 20 HBP


승-패와 ERA만 보면 2000년이 가장 좋았던 것 같이 보인다. WHIP를 본다면 2001년이 더 나은 것 같기도 하고.... 그럼 위의 공식에 따라 FIP를 구해 보면 어떨까?
1998 FIP = 3.87
2000 FIP = 4.24
2001 FIP = 4.02


오히려 1998년이 가장 좋은 것으로 나온다.

Fangraphs의 박찬호 페이지를 보면, FIP 값이 조금 다르게 되어 있다.
1998 FIP = 3.82
2000 FIP = 4.23
2001 FIP = 3.89


이렇게 값이 다른 이유는, Fangraphs가 상수로 3.20을 사용하지 않고 매 년 리그별 평균 실점(RA)을 가지고 적절한 상수를 계산하여 연도별로 조금씩 다르게 적용하고 있기 때문이다. 이렇게 조정된 FIP값을 쓰더라도, 1998년이 가장 좋았고 2000년이 가장 떨어진다는 점에는 변함이 없다.

그럼 왜 2000년의 ERA는 3.27로 가장 낮은데, FIP는 4.23 혹은 4.24로 편차가 크게 나타나는 것일까? 여러 가지 요인이 있을 수 있으나, 2000년의 BABIP(Batting Average on Balls In Play)가 .266으로 낮았다는 것을 생각해 볼 수 있다. 박찬호의 career 평균 BABIP는 .294이고, 이는 메이저리그 평균과 유사한 수치이다. BABIP가 특정한 해에 낮았다는 것은 타자들이 친 공이 유난히 야수 정면으로 가는 일이 많았다든지... 혹은 그 해 수비수들이 유난히 수비를 잘했다든지... 즉 "운"과 "동료들의 특별한 도움"이 작용했음을 의미한다고 볼 수 있다. BABIP에 대해서는 후에 따로 글을 쓰도록 하겠다. 반면 1998년 BABIP는 .298이었다. 이런 차이가 ERA와 FIP의 차이에 한 몫을 했을 것이다. (흥미로운 것은 2001년에도 그의 BABIP가 .266 이었다는 것이다. ERA와 FIP의 괴리에 대해 BABIP 한 가지 만으로는 설명하기 어렵다는 증거가 된다.)

혹 ERA와 FIP의 괴리 현상에 대해 더 많은 정보를 얻고 싶다면 괴리 현상의 대표 격으로 늘상 언급되는 Javier Vasquez에 대한 Fangraphs의 글을 참고하기 바란다.
Posted by FreeRedbird

댓글을 달아 주세요

  1. milai83 2010.01.01 09:52 Address Modify/Delete Reply

    제가 세이버매트릭스에 왕초보이긴 하지만 박찬호 전성기는 97년도 부터죠. 그리고 BABIP가 낮다고 다 운이 좋았다고만 해석이 되나요? 실제 이게 낮으면 공의 구위가 좋다고도 볼수있는 수치로 알고 있는데요?

    1997 .250
    1998 .298
    1999 .312
    2000 .266
    2001 .266

    박찬호가 첫 풀타임 선발이 된후 1997~2001년까지 BABIP를 보면 약 275정도 되겠네요. 이때에 기준으로 본다면 오히려 98,99녀년이 운이 없었던거죠. 그런데 허리부상이후 나빠진 구위로 인해 오랜 기간 나쁜 성적을 올린 뒤 커리어를 보면서 97,00,01년이 운빨이 였다고 하는건 숫자 놀음의 한계를 보여주는거 같네요. 그리고 FIP를 보면 다음해 성적도 어느정도 예상할수 잇다고 하는거 같은데 바찬호의 경우 전혀 맞지도 않고요... 아마 박찬호 같은 유형의 투수들에겐 일반적인 FIP만으로는 설명 할수 없는 부분이 있을텐데 그거에 대해 어떻게 생각하시나요? 단지 운이 좋아 3년간 좋은 성적을 낸걸까요?

    1998년 박찬호가 시즌초에 허리부상을 당합니다. 그 후유증으로 시즌초 성적이 많이 안좋죠. 4~6월 BABIP가 약 .331이였고 7~9월은 .254정도 됩니다. 걍 박찬호에 대해 전후 사정 모르고 본다면 억세게 운이 안좋던 투수가 갑자기 운빨로 좋은 성적을 낸걸로 볼수 잇겟쬬. 하지만 당시 경기를 지켜보던 사람들은 박찬호가 허리에 대한 부담감을 떨치면서 작년(97년)과 같은 위력적인 공을 던진걸 알고 있습니다. 97년 BABIP가 .250이지죠.

    • BlogIcon FreeRedbird 2010.01.01 18:53 신고 Address Modify/Delete

      BABIP를 결정하는 요소로는 운, 구장 효과, 팀 동료들의 수비 실력, 그리고 투수 본인의 실력 등 여러 가지가 있습니다. BABIP가 낮았다고 단순히 운이 좋았다고 볼 수는 없습니다. 위의 요소들이 복합적으로 작용한 결과지요. Tom Tango 등의 연구결과에 의하면 BABIP에서 투수 자신의 영향력은 28% 정도라고 합니다. 문자 그대로의 "운" 뿐 아니라, 유리한 구장에서 뛰거나, 수비가 좋은 동료들과 함께 뛰는 것 역시 넓은 의미에서는 운이라고 말할 수 있겠지요.

      질문하신 부분에 대해 제 나름의 답을 드리자면 이렇습니다. 박찬호는 잘 던졌습니다. 그리고 운이 좋았고, 투수에게 유리한 구장을 홈으로 쓰면서 구장 덕도 보았습니다. 낮은 BABIP, 그리고 FIP로 나타나는 수치에 비해 상대적으로 좋았던 성적은 이러한 요인들이 복합적으로 만들어낸 결과물이라고 봅니다. 박찬호는 확실히 좋은 투수였습니다만, 당시 국내 언론에서 이야기하는 것처럼 사이영상 후보 감 까지는 아니었다고 생각합니다.

      참고로... 저는 박찬호 안티가 아닙니다. 아래 글을 보시죠. ^^
      http://birdsnest.tistory.com/78

      1998년이나 2000년의 박찬호 FIP를 가지고 제가 계산해보니 타격을 제외하고 둘 다 4 WAR 정도 나오는데요... 이정도면 2009 시즌 MLB 전체 투수 랭킹에서 20위권에 해당하는 성적입니다. 무척 좋은 성적이죠.


      구위가 좋은 것과 BABIP가 낮은 것은 약간 다른 문제입니다. Curt Schilling의 커리어 BABIP는 .304, Ben Sheets는 .306, Randy Johnson은 .302, Chris Carpenter는 .304로 모두 별로 낮지 않습니다. 구위 보다는 투수의 투구 스타일에 좀 더 영향을 받지 않나 생각되는데... 뚜렷하게 확립되거나 검증된 이론은 없습니다. 물론 특정 투수 개인의 커리어 내에서, 부상 등으로 인해 구위가 특히 많이 떨어지면서 안타를 많이 맞게 되는 일은 있을 수 있다고 생각 됩니다.

      FIP와 ERA, 그리고 BABIP에 대한 논란에 대해서는 아래 글 및 글에 달려있는 댓글들을 보시면 조금 더 도움이 되실 것입니다. 이미 camomile님과 좀더 자세히 토론을 벌인 바 있습니다.
      http://birdsnest.tistory.com/128

  2. 2010.08.26 16:54 Address Modify/Delete Reply

    비밀댓글입니다

    • BlogIcon FreeRedbird 2010.08.26 18:33 신고 Address Modify/Delete

      Park Factor는 얼마나 많은 변수를 고려하느냐에 따라 다양한 계산 방법이 존재합니다.

      비교적 단순한 방법을 하나 보겠습니다. Y를 Yankees의 홈경기 때 평균 점수 발생(홈팀 득점+원정팀 득점)이라고 하고, R을 Yankees의 원정경기 평균 점수 발생이라고 하면, AL이 14팀이고 14개의 구장이 있으므로 다음과 같이 계산할 수 있습니다.

      (Y*14)/((Y+R*13))

      위의 식은 Yankees가 전체 AL 구장을 돌면서 득점/실점한 수준(분모)에 비해 홈에서만 전경기를 치른다고 했을 때의 득점/실점 수준(분자) 비율이 되겠지요.

      이제 이 식을 다음과 같이 변형합니다.

      ((Y*14)/((Y+R*13))+1)/2

      실제 시즌에서 홈경기와 원정경기가 절반씩이므로 이를 보정한 것입니다.

      여기에 regression을 해 줍니다. 샘플 사이즈가 작을수록 신뢰할 수 없는 데이터가 되므로, 계산시 반영 비율을 적당히 축소하는 것입니다. 이제 계산식이 아래와 같이 바뀝니다.

      1-(1-((Y*14)/((Y+R*13))+1)/2)*X

      여기에서 X가 regression을 위한 변수입니다. 1년간의 데이터라면 0.6, 2년간의 데이터라면 0.7, 3년은 0.8, 4년 이상은 0.9를 곱해 줍니다.

      여기까지의 계산식은 1을 중립으로 보았을 때의 값입니다. 100을 중립으로 놓는 경우도 많은데.. 결과값에 단순히 100을 곱해 주면 되겠죠.

      이 계산 방법은 아래 링크에 자세히 소개되어 있습니다.
      http://gosu02.tripod.com/id103.html

      득점 뿐 아니라 홈런이나 2루타 등에 대한 Park Factor도 같은 방식으로 계산이 가능합니다.

      ESPN의 Park Factor는 계산식이 좀 더 단순하게 되어 있는데요... 분모를 그냥 원정경기 득점 수준으로만 계산하고 있습니다. 바람직한 계산은 아니라고 생각하는데요... 이 숫자를 그대로 쓰더라도 단지 1년간의 데이터이므로 어느 정도 regression이 필요합니다. ESPN에 의하면 양키스타디움의 홈런팩터는 1.537 이므로 위 계산식에 의하여 1-(1-1.537)*0.6 = 1.322 가 조정 홈런 팩터가 됩니다. 여러 해의 데이터를 사용한다면 좀 더 신뢰할 만한 결과를 얻을 수 있겠지요. 참고로 Fangraphs는 5년간의 누적 데이터를 사용합니다.

      Park Factor는 진작부터 쓰고 싶었던 주제인데 시간이 잘 나지 않아서 다루지 못하고 있었습니다. 이 댓글을 조금 보강해서 아예 포스팅을 하도록 하겠습니다. 질문해주신 덕에 관련 글을 쓰게 되네요... 감사합니다. ^^

  3. 2010.08.27 13:33 Address Modify/Delete Reply

    비밀댓글입니다

  4. 위즈 2011.03.19 08:14 Address Modify/Delete Reply

    오랜만에 방문합니다.^^
    그동안 FIP에 대해 생각해본 것이 있어서 의견을 좀 나누고자..ㅎ;;
    FIP가 수비로 인한 부분을 배제한다고 했는데요. 만약 각각 다른 팀에 소속된 투수들이 아닌, 한 팀에 소속된 투수들간의 비교라면 평균자책점, whip, FIP가 어느 정도 비슷한 양상으로 나타나야 하지 않을까 생각해 보았습니다.

    흔히들 수비에는 기복이 없다고들 합니다. 1년 내내 같은 팀에서 로테이션에 속해 있었던 투수들은 대동소이한 수비지원을 받았다고 생각해도 무방할 듯 한데요. 그렇다면 위에 말씀드린 세 가지 지표가 비슷한 양상을 보여야 하지 않을까요? 적어도 순서 척도로 봤을때 대소 관계 정도는 맞아 떨어져야 하지 않을까 싶은데요.

    실제로 그 양상을 찾아봤을땐 제각각입니다. 그 양상이 어찌나오든, 평균자책점과 whip가 앞서 말씀드렸듯이 한 시즌 동안 같은 팀의 로테이션에서 뛰었던 투수들 간의 비교에는 의미가 있다는 생각이 드네요.

    • BlogIcon FreeRedbird 2011.03.22 14:21 신고 Address Modify/Delete

      비슷한 양상을 보인다는 것은 어떤 의미이신지요? 투수간 능력이 다르니 FIP는 투수마다 다를 수밖에 없고요. ERA나 WHIP도 마찬가지이겠지요. 혹시 E-F(ERA-FIP)를 말씀하시나요?

      예를 들어 같은 팀에서 뛴 선발투수라면(구원투수는 이닝수가 적어 부적당합니다) E-F가 유사해야 한다고 생각할 수 있습니다만, ERA를 결정하는 것은 수비나 구장 효과가 전부는 아니니까요. BABIP의 변동이라든지(여기에는 운이 많이 개입되지요), 투수 본인의 그라운드볼 성향 같은 것도 영향을 미치게 됩니다. 그러니 반드시 같은 팀이라고 유사한 E-F 값을 가지리라는 보장은 없습니다.

  5. 위즈 2011.03.22 16:47 Address Modify/Delete Reply

    답변 감사드립니다. 제가 글 재주가 없다보니 명확히 전달이 안되었네요.^^
    제가 말씀드린 것은 FIP가 수비로 인한 부분을 배제하는데 의의가 있으니 같은 팀에 소속된 투수들끼리의 비교에서는 굳이 수비로 인한 부분을 배제할 필요가 없지 않겠냐하는 것이었습니다. (물론 말씀하신대로 로테이션에 속해있는 투수들 간의 비교에서요.)

    비슷한 양상을 보여야 한다는 것은 만약 한 팀의 1선발에서 5선발 쪽으로 갈수록 ERA가 높게 나왔다면, FIP도 이와 비슷하게 1선발에서 5선발 쪽으로 갈수록 높게 나와야 하지 않냐는 것이지요.

    • BlogIcon FreeRedbird 2011.04.04 14:03 신고 Address Modify/Delete

      답변이 늦었네요. ^^ 리그 전체로 보면 ERA와 FIP는 물론 비례합니다. 말씀하신 부분은 같은 팀의 선발투수 5명인데... 5 라는 숫자는 통계적으로 거의 무의미한 작은 표본이므로 5명에게 항상 일정한 경향이 나타나기를 기대하는 것은 무리인 것 같습니다. 그리고 위의 답변에서 말씀드렸듯이 Batted Ball의 운명에는 수비만 개입하는 것이 아니라 투수 개개인의 "운"이 많이 작용하고요. 얼마나 그라운드볼을 많이 유도하느냐에 따라 수비에 대한 의존도도 달라지기 때문에, 같은 팀이라고 해서 수비를 반영하거나 하지 않거나 마찬가지의 결과를 얻을 것이라고 기대하기는 어렵습니다.

  6. BlogIcon aslkjdqwe 2011.09.28 21:56 신고 Address Modify/Delete Reply

    맷 케인, 바스케스, 글래빈, 매덕스, 모로우등은 FIP을 신봉하는 사람들 입장에선 달갑지 않겠네요. FIP의 단점을 메꾼다고 만든 tRA나 SIERA 역시 FIP과 마찬가지로 예외적인 선수들을 배척하네요. 예외가 이렇게 많아서야...좋은 FIP이 좋은 결과(ERA,RA)를 만드는 데 도움이 되는 건 맞지만 여전히 놓치는 게 너무 많은 스탯이란 건 변함이 없는 것 같네요.

    • BlogIcon FreeRedbird 2011.09.28 23:39 신고 Address Modify/Delete

      말씀하신 투수들은 모두 FIP의 예외적인 투수들에 해당하고요. 하지만 달갑지 않다기보다는 FIP 이외에도 더 고려해 주어야 할 것이 있다는 것을 일깨워주는 존재들이라고 생각합니다. 투수는 여러 스탯을 이용해서 평가를 하는 것이 더 좋겠지요. 애초에 투수를 수비나 운으로부터 완전히 분리하는 것이 불가능하기에, 어떻게 평가를 하더라도 약간의 사각지대는 생길 수밖에 없습니다.

      하지만 FIP가 놓치는 게 많다는 말씀에는 동의하기가 어려운데요. 인플레이된 타구를 통째로 제외한다고 해도 놓치는 것은 그다지 많지 않습니다. 아래 링크의 두 번째 표를 보시죠.
      http://www.fangraphs.com/blogs/index.php/new-siera-part-four-of-five-testing/

      업그레이드 된 SIERA가 RMSE 1.04로 가장 우수하고요. kwERA가 1.05, xFIP와 bbFIP가 1.06, FIP가 1.12 입니다. ERA는 1.29죠. 당연히 ERA보다 더 후진 스탯은 비교대상에 없습니다. (ERA의 단점을 보완하고자 계속 새로운 지표를 개발하는 것인데 ERA보다도 못하다면 존재 의미가 없죠.)

      간단하면서도 효율적이라는 면에서 FIP는 매우 우수한 스탯입니다. 심지어 홈런조차 빼버리고 삼진과 볼넷만으로 계산하는 kwERA(이름은 ERA지만 이것은 FIP의 컨셉에 가까운 스탯입니다)가 훨씬 복잡한 SIERA와 거의 같은 수준의 정확도를 가지고 있다는 것은 의미심장하다고 생각됩니다.

      kwERA와 bbFIP에 대해서는 시즌이 끝나는 대로 별도 포스팅하도록 하겠습니다.

  7. 쵱휴여 2012.04.26 16:23 Address Modify/Delete Reply

    좋은글 잘 보았습니다.

    한가지 궁금한게 있는데 FIP를 구할 때 홈런이 들어가는데 홈런중에서 인사이드 파크 홈런은 포함인가요? 제외인가요?

    나름 검색을 해보기는 했는데 잘 모르겠네요~

    기본적으로 빠지는게 FIP의 이념상 맞겠지만, 포함된다면 그 빈도가 낮아 유의미하지 않다고 판단해서 일것 같긴 합니다.

    • BlogIcon FreeRedbird 2012.04.26 17:44 신고 Address Modify/Delete

      인사이드파크 홈런을 제외하고 FIP를 산출하는 것을 본 적은 없는 것 같습니다. 빠지는 게 정확하겠지만, 말씀하신 것처럼 발생 횟수가 워낙 작기 때문에, 큰 문제는 없을 듯 합니다.

  8. BlogIcon aslkjdqwe 2012.05.06 21:15 신고 Address Modify/Delete Reply

    오늘 프로야구를 보다 문득 궁금한 점이 생겼습니다.
    오늘 심수창 선수가 3이닝 동안 11피안타(1피홈런)으로 부진했는데
    "상대 타자의 컨디션이 유독 좋았다."
    "잡을만한 타구도 있었지만 잡지 못했다."
    "유독 빈공간을 향하는 타구가 많았다."
    라는 식으로 변명한다면 어떤 식으로 답해야할까요?
    합리적인 변명인 거 같기도 하고 이건 좀 아닌 거 같기도하고...
    어중간하게 BABIP니 FIP이니 알게 돼서;;

    • BlogIcon FreeRedbird 2012.05.07 01:52 신고 Address Modify/Delete

      그런 주장은 진짜일 수도 있습니다. 11피안타의 타구의 질을 보는 방법도 있는데.. 이를테면 라인드라이브 타구가 대부분이었다 라고 한다면 운이 없다기보다 공이 별로였을 가능성이 높겠지요. 어쨌든, 한 경기만 가지고 판단하기는 조금 어려울 수도 있습니다. 이후의 경기들에서 잘 던진다면 그런 주장대로 정말 "유독 빈공간을 향하는 타구가 많았"을 가능성이 높고요. 그렇지 않고 매 경기 난타당한다면 그냥 그게 실력인 것이지요. BABIP가 투수의 실력과 별 상관이 없이 대체로 비슷하게 나타난다 라는 것은 일정 이상의 실력을 가진 투수들(미국으로 치면 메이저리거 급)에게만 해당하는 이야기입니다.

  9. 2012.08.18 15:04 Address Modify/Delete Reply

    비밀댓글입니다

    • BlogIcon FreeRedbird 2012.08.19 01:29 신고 Address Modify/Delete

      네. 다른 지구 구장에서도 충분히 많은 경기를 치르기 때문에, 1로 가정하셔도 큰 차이가 없습니다.

  10. asd 2012.10.17 14:02 Address Modify/Delete Reply

    가령 어떤 선수가 9이닝 3볼넷 3탈삼진 완봉승을 거뒀다고 친다면 이 선수는 운이 억세게 좋았던 것인가요? (잘 맞은 타구가 거의 없고요.)

    • BlogIcon FreeRedbird 2012.10.18 00:57 신고 Address Modify/Delete

      그럴 가능성이 있지만 반드시 그렇다고는 할 수 없죠. 원인으로 꼽을 수 있는 것들은..

      1) 운이 좋았다.
      2) 팀 수비력이 매우 뛰어나서 안타성 타구도 다 아웃으로 처리되었다.
      3) Matt Cain처럼 대부분의 투수에게는 없는 특별한 BABIP 관리 능력을 가지고 있다.

      정도인 것 같습니다. 해당팀의 시즌 수비 지표 및 그 투수의 커리어 스탯을 보면 2번과 3번을 판단할 수 있으므로, 2번도 아니고 3번도 아니라면 운이 좋았다고밖에 할 수 없겠지요.