실점을 막는 것은 득점을 하는 것과 똑같이 중요하다. 점수를 덜 줘서 이기는 것이나 더 내서 이기는 것이나 마찬가지인 것이다. 아니... 실제로는 실점을 줄이는 쪽이 조금 더 유리하다. Pythagorean Expectation 포스팅을 기억하시는지? 실점을 줄이는 쪽이 득점을 더 하는 것보다 약간 기대 승률이 높게 나오는 것이다.

실점을 줄이는 것은 투수와 수비의 몫이다. 특히 야구는 투수놀음이라는 말이 흔히 쓰일 만큼, 투수의 중요성은 막대하다. 수비가 형편없어도, 투수가 상대타자를 모조리 탈삼진으로 돌려세우면 여전히 무실점으로 막아내는 것이 가능하다. 하지만, 투수가 형편없다면, 수비가 아무리 좋아도 안타를 한 개도 허용하지 않는 것은 불가능하다. 심지어 인플레이 된 공은 무조건 잡을 정도로 수비력이 좋더라도, 투수가 던지는 족족 홈런을 허용할 경우 어떻게 해 볼 도리가 없는 것이다.

따라서, 투수의 능력을 측정하는 방법으로 ERA, 즉 투수가 얼마나 점수(자책점)를 내주었는지를 살펴보게 된 것은 어찌보면 당연한 일이었다. ERA는 꽤 오랫동안 투수를 평가하는 척도로 널리 이용되었고, 지금도 WHIP와 함께 가장 흔히 사용되고 있다.

오늘은 ERA 및 ERA의 대체 스탯들을 살펴보게 될 것이다. 그동안 타자에 대해 많이 썼으나 투수에 대해서는 다소 소홀한 감이 있었기에, 투수에 대해 쓰고 싶었던 참에 마침 VEB에서 vivaelpujols의 잘 정리된 글을 보게 되었다. 각각의 개념에 익숙치 않은 분들을 위하여, 좀 더 자세히 설명해 보고자 한다.


1. ERA (Earned Run Average)

ERA를 모르시는 분들은 아마 거의 없으리라 생각되지만, 기초를 다지는 의미에서 다시 한 번 짚고 넘어가도록 하겠다. 먼저 ER(Earned Run, 자책점)에 대한 이해가 필요한데, 투수의 잘못으로 내준 점수를 자책점이라고 하고, 투수의 잘못이 아닌 실점을 비자책점이라고 한다. 안타나 홈런, 볼넷 등으로 내준 점수는 기본적으로 자책점이지만, 만약 주자가 수비수의 에러로 인해 출루한 경우에는 비자책점으로 분류한다. 에러는 투수의 잘못이 아니라는 것이다. 여기서 재미있는 것은 투수 본인의 에러로 점수가 난 경우에도 비자책점이 된다는 것이다. 공을 던지는 사람으로서의 투수와 야수로서의 투수를 구분하고 있다는 의미이다.

ERA는 9이닝당 자책점의 비율을 의미한다. 즉, 다음과 같이 계산된다.

ERA = ER * 9 / IP

ERA에 대한 비판은 여러 가지 관점에서 생각할 수 있다. 우선, ER을 계산하는 방식의 문제이다. 예를 들어, 에러로 주자가 출루한 후 적시타를 맞아 주자가 홈인했다면, 이는 비자책점이 된다. 하지만, 에러는 수비수의 잘못이더라도 이후 적시타를 맞은 것은 일정 부분 투수의 책임이 있다. 그럼에도 불구하고 이 점수는 그냥 비자책점이 될 뿐으로, 투수에게 책임을 묻지 않는다. 또한, 2사 만루 상황에서 구원투수가 등판하여 주자일소 3루타를 맞고 3실점한 후 후속타자를 아웃시켜 이닝을 마무리한 경우, 모든 실점의 책임은 주자 3명을 내보낸 앞의 투수에게만 전가될 뿐, 3루타를 맞은 구원투수는 무실점으로 기록된다. 2사 만루에서 불을 끄는 것이 그의 임무였고, 그는 임무에 실패했지만, ER은 계산되지 않고, 따라서 ERA도 전혀 나빠지지 않는다.

다음은 좀 더 근본적인 문제인데... 점수를 내 주지 않는 것이 투수 혼자의 공이 아니라는 점이다. 실점을 막는 것은 투수와 수비 모두의 공이다. 뛰어난 수비수들이 뒤에 있다면, 투수의 ERA가 낮아지는 것은 당연한 것이다. 즉 실점을 얼마나 했는가는 팀 전체의 스탯인데도, ERA는 마치 투수 혼자만의 스탯인 것처럼 취급한다.

그리고... 자책점과 비자책점을 가르는 주요한 변수인 "에러"에 대해서도 문제를 제기할 수 있다. 특정 타구가 에러인지 안타인지를 판단하는 것은 일정 부분 기록자의 주관이 개입된다. (내야안타는 특히 그렇다.) 또한, 수비수는 어려운 타구를 무리하게 건드려서 에러를 낼 수도 있지만, 그냥 보수적으로 수비하여 안타를 내줄 수도 있다. 같은 타구가 수비수의 능력과 성향에 따라 에러도 될 수 있고 안타도 될 수 있는 것이다. 투수의 능력과 상관없이 자책/비자책이 결정되고, 이를 통해 투수가 평가받는 것은 불합리하다고 할 수 있다.

혹은 투수에 따라 단지 운이 없어서 안타를 유난히 많이 맞아 실점을 많이 하는 경우도 있을 것이다. BABIP는 상당 부분이 운에 의해 좌우되고, BABIP가 높으면 아무래도 실점을 하기 쉬워지므로, 자책점과 비자책점을 아무리 잘 분리해 낸다고 해도 운의 개입은 피할 도리가 없다. 운이 없어 실점을 많이 했는데 ERA가 높다고 욕을 먹게 된다면 꽤나 억울할 것이다.


2. FIP (Fielding Independent Pitching)

FIP는 옛날에 블로그에서 이미 다룬 바 있으나, 다시 한 번 정리해 본다.

실점을 기준으로 투수를 평가하게 되면 "수비"와 "운"이라는 방해 요소가 섞이는 것을 피할 수가 없으므로, 이런 투수와 상관없는 요소를 완전히 제거해버린 새로운 스탯이 개발되었다. 바로 FIP이다. FIP는 Tom Tango에 의해 처음 개발되었고, 이후 여러 사람에 의해 개량되었다.

과거 BABIP에 대한 선구적인 연구로 유명해진 Voros McCracken의 경우 BABIP는 투수의 능력과 거의 아무런 상관이 없다는 극단적인 주장을 했었는데, 이후 여러 사람의 추가 연구에 의해 BABIP는 운, 수비의 능력, 투수의 능력, 구장 효과 등 다양한 요인에 의해 결정된다는 결과를 얻게 되었다. 이 중에서 가장 큰 영향을 끼치는 Factor는 역시 "운"으로 나타났다.

FIP는 타자가 방망이로 공을 맞춰서 인플레이 된 경우, 즉 BABIP의 영향을 받는 경우를 모두 무시한다. 여기서 "인플레이"라 함은 타구가 페어 지역에 떨어져서 수비가 개입하게 된 모든 경우를 말하는 것이다. (파울플라이는 파울 지역에 떨어진 공이지만 수비수가 잡아서 아웃 처리하였으므로 역시 인플레이로 간주한다.) 이런 부분을 모두 제거하고 나면, 남는 것은 수비수들이 공에 손을 댈래야 댈 수 없는 플레이들만 남게 된다. 바로 홈런, 볼넷, 사사구, 삼진이 그것이다. FIP는 이들 스탯만을 이용하여 아래와 같이 계산한다.

FIP = (13*HR + 3*(BB-IBB+HBP) - 2*K) / IP + C

여기에서 C는 FIP를 ERA와 유사한 Scale로 만들어 주기 위한 상수(Constant)이다. 이 상수는 대체로 3.20 부근의 값을 가지는데, 매년 조금씩 변화한다. C를 구하는 방법은 아래와 같다.

C = (9*lgER + 2*lgK - 13*lgHR - 3*(lgBB-lgIBB+lgHBP)) / lgIP

여기에서 lgER은 League Total ER을 의미하며, lgHR, lgBB 등도 마찬가지로 리그 전체 합계를 이용한다. 위와 아래의 식을 비교해 보면, 이렇게 C를 계산할 경우 리그 평균 ERA와 리그 평균 FIP는 항상 똑같은 값을 가지게 됨을 알 수 있다. 참고로, 2009년 메이저리그의 C값은 3.18이며, 리그 평균 ERA와 리그 평균 FIP는 모두 4.32였다. 이렇게 만들어 준 덕에, FIP는 ERA와 유사한 값을 가지게 되므로 한 눈에 알아보기가 쉽다. 3.00 ERA가 좋은 것처럼, 3.00 FIP도 좋은 것이다.

FIP의 문제는, 인플레이된 공이 어떻게 되었는지를 완전히 무시하는 것이다. 위에서 언급했듯이, 비록 BABIP의 가장 큰 요소는 "운"이지만, 투수의 능력도 분명 한 몫을 하고 있는 것이다. 우리가 상식적으로 알고 있듯이, 투수의 구위가 좋으면 타자들이 좋은 타구를 잘 만들어내지 못하는 것은 일정 부분 사실이다. ERA가 투수의 능력과 상관없는 부분을 지나치게 많이 포함하고 있다면, FIP는 반대로 투수의 능력이 실제로 작용하는 부분을 일부 무시한다는 결점을 가지고 있다. 또한, FIP에는 park adjust가 이루어지지 않았다는 것도 문제로 지적된다. 그럼에도 불구하고, 수비와 운이라는 가장 큰 노이즈 요소를 배제하였다는 점에서, FIP는 투수의 순수한 능력을 평가하는 좋은 잣대가 된다.

FIP는 FangraphsThe Hardball Times 에서 찾을 수 있다.


3. xFIP

xFIP는 기본적으로 FIP와 계산 방법이 같은데, 한 가지 중요한 차이가 있다. 위의 FIP 식에서 실제 피홈런 숫자를 넣는 대신 고정된 HR/FB 비율을 이용하여 계산된 이론적 피홈런 숫자를 넣는 것이다. 이렇게 하는 이유는... 볼넷과 삼진, 사사구는 투수의 능력에 의한 것이지만, 피홈런의 경우 "운"과 "구장 효과"가 많이 작용되는 점을 고려하여 이를 보정한 것이다. 일반적으로 HR/FB 비율은 0.11이 이용된다. 투수의 능력 이외의 요소가 작용하는 부분을 제거하고자 함에 있어서, FIP보다도 더욱 철저한 스탯이라고 할 수 있다.

xFIP는 The Hardball Time에서 찾을 수 있다. 참고로 Adam Wainwright의 페이지를 링크하였다.


4. tRA

tRA는 FIP의 약점인 "인플레이된 공을 완전히 배제하는 것"을 보완하고자 Graham MacAree가 개발한 스탯이다. tRA의 기본 컨셉은, 마치 wOBA로 공격력을 측정할 때와 같이, Run Expectancy로부터 각 이벤트의 Expected Run Value를 구하여 이를 9이닝(27아웃)에 대한 예상 실점으로 바꾸어 산출하는 것이다.

이 페이지는 Stat Corner의 tRA 설명 페이지이다. 이 페이지에는 2008년의 이벤트별 Run Value가 나와 있는데, 이를 보면 tRA에 사용되는 스탯 혹은 이벤트를 알 수 있다. 즉, 삼진, 볼넷, 사사구, 라인드라이브, 그라운드볼, 외야플라이, 내야플라이, 홈런 갯수가 계산에 사용되는 것이다. 각각의 스탯에 각각의 Run Value를 곱하여, 27아웃을 기록하는 동안 예상되는 Run Value의 합을 구하면 바로 9이닝 당 예상 실점이 된다. ERA가 9이닝당 자책점인 데 비해, tRA는 위의 이벤트 별 스탯을 바탕으로 9이닝당 예상 실점을 구하는 것이다. 이 과정에서, 수비의 수준과 홈구장 등은 모두 중립으로 조정된다.

이 tRA는 Stat Corner 및 Fangraphs에서 만날 수 있다.

중립적인 환경을 만들기 위해 조정을 실시하고, 타자의 방망이에 맞은 타구에 대한 투수의 영향력을 반영하고자 한 점에서, FIP보다 진보한 아이디어의 스탯이라고 할 수 있다. 그러나, Stat Corner와 Fangraphs에서 동일한 선수들을 비교해 보면, 같은 스탯임에도 불구하고 tRA가 서로 다르게 계산되어 있음을 발견하게 된다. 예를 들어, Chris Carpenter의 tRA는 Fangraphs에서 3.02, Stat Corner에서 2.77로 나온다. 이러한 차이가 발생하는 이유는, tRA가 라인드라이브, 그라운드볼, 플라이 등 인플레이 된 공을 어떻게 기록하느냐에 따라 달라질 수밖에 없기 때문이다. 타자가 친 공이 라인드라이브인지, 플라이인지, 그라운드볼인지를 결정하기 위해, Fangraphs는 BIS의 PbP 데이터를 이용하는 반면 Stat Corner는 MLB Gameday의 PbP 데이터를 이용한다. 특히 플라이볼과 라인드라이브의 구분에는 어느 정도 애매한 부분이 존재할 수밖에 없으므로, 기록자의 주관적 판단에 따라 기록이 달라지고, 결국 tRA 값이 영향을 받게 된다. FIP를 보완하기 위해 인플레이 된 결과물을 반영한 결과, 기록자의 주관적 판단이 개입되는 오차가 생긴 것이다. 이것이 tRA의 단점이다.


5. tRA*

tRA*는 tRA에 회귀분석을 적용한 스탯이다. 삼진 비율, 볼넷 비율, 사사구 비율, 그라운드볼 비율 등 모든 이벤트의 발생 비율에 대해서 해당 투수의 커리어 year-to-year correlation을 바탕으로 해당 시즌에 몇 명의 타자를 상대했는 지를 감안하여 적절한 수준의 regression을 해 주는 것이다. tRA*는 투수들 간의 퍼포먼스를 비교하기보다는 해당 투수가 앞으로 어떤 성적을 내줄 지를 예상하기 위한 목적으로 개발되었다.

tRA*는 Stat Corner에서 찾을 수 있다.



그럼 어떤 스탯이 투수를 평가하는 데 가장 좋은 스탯일까? 지금까지 살펴 보았듯이 단 하나의 정답은 없다. ERA에는 투수의 능력과 상관없는 다른 요소가 많이 개입되어 있다. FIP, xFIP는 투수의 능력 이외의 다른 것을 제거하려고 하다가 투수의 능력이 작용하는 부분까지 잘라내 버렸다. tRA는 이를 보완하려고 시도하였으나 대신 Play by Play 기록자의 주관이라는 새로운 노이즈가 추가되었다.

개인적으로는 이들 중 FIP 및 xFIP를 주로 참고하는 편이다. ERA에 포함되는 이런저런 외부 요소가 너무 많아서 도무지 신뢰할 수가 없기 때문이다. FIP에는 빠진 부분이 분명 존재하나, "운"이라는 요소를 배제하는 부분에서는 꽤 성공적인 스탯이라고 할 수 있다. 몇 가지의 Raw Stat만으로 쉽게 계산되는 것도 큰 장점이다. 또한 좋은 FIP를 받는 것(볼넷과 홈런을 덜 허용하고 삼진을 많이 잡는 것)이 수비의 질과 상관없이 실점을 막는 데 좋은 결과를 얻게 한다는 점은 부인할 수 없을 것이다.


투수에 관한 다음 포스팅에서는 투구 이닝 및 투수의 가치(Value: 투수의 WAR)에 대해 써 볼 예정이다.

(이 글은 한국야구팬사이트에서도 보실 수 있습니다.)


Today's Music : Lynyrd Skynyrd - Free Bird (Live)



이쯤에서 이 블로그와 뗄래야 뗄 수 없는 곡을 소개해야 할 것 같다. FreeRedbird라는 필명은 이 곡의 제목에서 온 것이다. Viva El Birdos에서 활동하기 위해 SB Nation에 가입하려고 할 때... 아이디를 뭘로 할까 고민하던 중 이 곡을 듣게 되었다. 결국 곡 제목을 아이디로 쓰기로 했고, Cardinals 팬이라는 정체성을 나타내기 위해 Red를 중간에 삽입하여 FreeRedbird가 탄생한 것이다. 그런데... 지나고 나서 생각해보니 FreeRedbird보다는 RedFreebird가 좀 더 낫지 않았을까 하는 후회가 들기도 한다. ^^

어쨌거나... Gary Rossington의 슬라이드 기타, 그리고 곡 중후반부에 이어지는 기타 3대의 현란한 연주가 잊을 수 없는 감동을 선사하는 명곡이다.

Posted by FreeRedbird

댓글을 달아 주세요

  1. camomile 2009.12.01 13:20 Address Modify/Delete Reply

    개인적으로 FIP는 투수스탯을 볼때 아예 배제하고 보는 스탯입니다. 인플레이상황에서 안타가 될 확률, 즉 BABIP가 모든 투수에게 동일하게 적용된다는 기본 가정부터 말이 안되는 스탯이기때문입니다. 제가 보기엔 FIP혹은 BABIP가 말하는 '운'이란 요소를 적용하려면 한 선수, 즉 그 선수의 커리어 내에서만 판단해야하는 것이죠. 전성기를 달리고 있는 A라는 투수의 BABIP 5년기록이 예를 들어 .258/.267/.245/.313/.263 이라고 가정할 경우 A의 4번째 시즌은 운이 나쁜 것이 맞습니다. 하지만 투구스타일이 틀린 B와 C 두 선수의 경우 B의 전성기 5년간 BABIP가 .258, C의 5년간 BABIP가 .313이라 해서 C가 B보다 운이 나쁜 투수였다고 말하는 것은 말도 안된다는 소리죠. 또한 D라는 투수의 전성기 5년간 BABIP가 .258이고 은퇴전 5년간 BABIP가 .300이라 해서 D의 전성기는 운이 좋았고 말년엔 운이 나빴다고 할 수 없는 것이죠. 투수마다 투구스타일에 따라 각각의 고유한 BABIP를 가지는데 리그전체 BABIP를 보고 각 투수의 그해스탯을 운이좋았다나빴다고 판단하는 것은 분명한 오류입니다. 그리고 삼진 많이 잡는 투수에 대한 과도한 고평가가 내재되어있는 스탯이기도 하구요. BABIP가 삼진율이 높으면 급격히 높아지는 스탯입니다. 즉, '9이닝당 삼진을 많이 잡는 투수일수록 운이 나쁜 투수'가 되는 것이죠. 계산식 자체에도 분명한 한계가 있는 스탯임에 틀립없지요.

    • BlogIcon FreeRedbird 2009.12.01 18:00 신고 Address Modify/Delete

      우선... 제가 늘 말씀드리는 바와 같이... 특정한 하나의 스탯만 가지고 선수를 평가할 수 있는 방법은 없습니다. 각 스탯의 장점과 한계를 파악하고 목적에 따라 그때그때 복합적으로 참고하는 것이 좋은 방법이 되겠지요.


      그냥 예를 들어서 말씀하신 숫자임은 잘 알고 있습니다만... BABIP .258과 같이 극단적으로 낮은 수치는 Hoyt Wilhelm(커리어 BABIP .253)이나 Ed Walsh(커리어 BABIP .260) 과 같은 옛날 투수들에게서나 흔히 볼 수 있을 뿐, 현재 활동중인 투수들의 BABIP 차이가 그렇게 크게 나타나는 일은 별로 없습니다...

      님께서는 서로 다른 시대와 리그에서 뛰었던 선수들 간의 절대적 비교 및 표준화에 관심이 많으신 것으로 생각합니다. 리그 평균 BABIP가 서로 다른 1950년대와 2000년대의 투수를 그냥 비교하여 단순히 운이 좋았다 나빴다 라고 이야기하는 것은 당연히 말도 안되는 일이죠. 비교를 위해서는 리그 평균을 고려한 조정이 있어야 할 것입니다.

      허나 같은 시대에 같이 활동하는 투수들의 BABIP 차이는 그다지 많이 나는 것으로 보이지 않습니다. 같은 시대를 살아가는 투수들끼리의 비교에서는 BABIP의 차이에 대해 어느 정도(절대적이라는 게 아니고 "어느 정도"임을 다시 강조합니다.) 실력과 상관없는 요소가 개입하고 있음을 인정해야 하지 않을까 생각됩니다.

      현역 투수들의 커리어 BABIP 분포에 대해서는 개인적으로 조금 더 research를 한 뒤 말씀드리죠. BABIP와 탈삼진 비율 간의 관계 역시 제가 직접 연구를 조금 하고 나서 답변을 드리겠습니다.

      BABIP가 투수와 아무 상관이 없다는 McCracken의 주장은 너무 극단적인 것임을 이미 본문에서 말씀 드렸습니다. 투수의 구위가 좋으면 타자가 범타를 많이 치는 것은 당연한 일이죠. 다만 제가 강조하고 싶은 것은 투수의 능력이 BABIP에 미치는 영향은 "제한적"이라는 것입니다.

      투수의 BABIP를 결정하는 데 있어 각 요소가 미치는 영향의 상대적 비율에 대해서는... Baseball Prospectus의 책 <Baseball between the Numbers>의 "When Does a Pitcher Earn an Earned Run" 챕터를 참고하시면 다음과 같이 나옵니다.

      Luck 44%
      Pitcher Ability 28%
      Defense 17%
      Park Effect 11%

      즉 투수의 능력이 28%이고, 투수 능력 이외의 부분이 72%인 것이죠. 이 숫자가 얼마나 정확한지는 모르겠습니다만... 단지 28%만 투수 고유의 능력이 반영되는 BABIP에 대해 "각각의 투수가 고유의 BABIP를 갖는다"고 하시면 비약이 되지 않을까요?? 투수의 능력과 상관없는 부분이 훨씬 크게 작용하니까요.

      FIP와 같이 인플레이 된 공을 모두 무시하게 되면... 이 28%를 잃어버리게 됩니다. 그만큼 부정확한 부분이 생기는 것은 인정합니다만, 투수가 컨트롤할 수 없는 나머지 72%를 제거함으로써 얻는 이득이 훨씬 크지 않을까요? 저는 그렇게 생각하기에 FIP를 즐겨 사용합니다.

      camomile님께서는 투수를 평가할 때 어떤 rating stat을 주로 사용하시는지요...??


      그리고.. 이것은 포스팅에 좀 시간이 걸릴 것 같습니다만... FIP는 사실 BABIP를 완전히 배제하는 스탯은 아닙니다. 단지 regression이 된 거죠. 인플레이된 공에 대한 평가는 다른 요소들의 앞에 붙어 있는 가중치(홈런에 13, 삼진에 -2, 볼넷 및 HBP에 3)에 사실 약간씩 녹아 들어 있습니다. 이것은 좀 방대한 이야기가 될 것 같기도 하고, 개인적으로 아직 정리가 안된 부분도 있어서요.. 나중에 별도의 글로 정리하고자 합니다.

  2. camomile 2009.12.02 12:00 Address Modify/Delete Reply

    긴~글을 적었는데, 남의 블로그에 와서 이렇게 긴 글을 댓글로 올린다는 자체가 약간 민망하기도 합니다.^^

    FIP의 주된 문제중 하나는 9인게임인 야구에서, 수비의 능력을 완전히 배제한다는 데 있습니다. 완전히 배제하기보다는 Replacement Revel의 수비를 상정하는 것이 더 합리적이라는 이야기죠. 수비의 능력을 완전히 배제함으로써 탈삼진형투수가 극도로 유리한 비정상적인 결과가 산출된다는 것이 굉장히 큰 문제입니다. 게임당이닝도 더 많고(IP/G), 9이닝당 홈런도 더 적고(HR/9), 9이닝당 볼넷도 더 적고(BB/9), 평균자책(ERA) 및 9이닝당 출루허용률(WHIP)에서도 압도적인 그렉 매덕스가 단지 삼진이 더 적다는 이유로, 보다 직접적으로 말하자면 인플레이상황을 더 많이 만든다는 이유로 FIP상에서 랜디 존슨에 비해 저평가를 받게된다는 것은 상식밖의 일입니다.

    저는 BABIP는 리그전체의 투수에게 동일한 값이 적용되어야하는 것이 아니라 투수에 따라 고유한 값을 가진다고 첫댓글에서 언급했는데요. 과연 그런지, 그것이 또한 직관적으로도 들어맞는지를 우선 검증하는 것이 필요하다고 생각합니다. 우선 인플레이상황에서 안타가 될 확률은 도대체 무엇에 의존하는지를 살펴봐야합니다. 일단 타구의 질을 들 수 있겠죠. 통계적으로 라인드라이브타구의 75%는 안타가 된다고 합니다. 그라운드볼은 25.2%, 플라이볼은 12.8%구요. 즉, 땅볼형투수는 플라이볼형투수에 비해 BABIP가 높을 가능성이 큽니다. 그렇다면 땅볼형투수는 플라이볼형 투수에 비해 BABIP 혹은 FIP에서 '운이 나쁜 투수'로 평가받을 확률이 높습니다. 직관적으로 봐도 플라이볼형투수는 홈런을 많이 허용하는 선수이므로, 점수를 허용할 확률이 땅볼형투수에 비해 더 높겠죠. 이 부분에서 FIP는 설명력이 아주 높은 스탯입니다.

    그렇다면 라인드라이브타구는 누가 결정하는가? 물론 타자의 영향이 매우 큽니다. 좋은 타자는 통계적으로도 LD%를 높게 유지하구요. 그 외 배드볼히터의 경우 나쁜공에도 뱃이 나가므로 LD%는 낮을 것이고, 반대로 선구안이 좋은 선수는 LD%가 높을것으로 예측됩니다. 실제로 선구안이 매우 좋다고 평가되는 푸홀스의 경우 커리어 LD%가 19.5%, 배드볼히터로 평가되는 게레로의 경우 12.5%군요. 전성기로 짤라서봐도 비슷합니다. 하지만 여기서 문제되는 것은 라인드라이브타구는 타자에게 전적으로 의존하는가?입니다. 만약 그렇다면, BABIP로서 리그 투수 전체의 일반적인 평균기준을 적용해서 각 투수마다 운이좋다나쁘다를 말할 수 있는 하나의 근거가 될수도 있겠고, FIP역시 스탯으로서 설명력이 매우높아질 수 있을 것입니다.

    그렇지만, 답은 라인드라이브타구에 투수의 능력이 개입될 여지가 있다는 겁니다. 각 투수의 투구스타일에 따라 고유한 BABIP를 가지게 되는 것이 이 답에 대한 근거가 될 수 있겠죠.

    Fangraph에서 BABIP순위를 살펴보면 BABIP와 운지수(ERA-FIP)는 거의 정비례관계를 가집니다. 즉, BABIP가 높을수록 그 투수는 운이 나쁘다고 보는 것이죠. FIP라는 스탯 자체가 BABIP를 기본개념으로 해서 만들어진 스탯이므로 당연하다 하겠습니다.

    이제 투수들을 BB/9를 기준으로 유형화해보겠습니다. 상식적으로 생각해볼때, 볼넷이 많은 투수가 BABIP가 높을까요 볼넷이 적은 투수가 BABIP가 높을까요? 당연히, 볼넷이 적은 투수가 BABIP가 높을수밖에 없습니다. 볼넷이 많은, 즉 제구가 나쁜 투수의 경우 스트라이크비율이 떨어지게되며 타자들은 그 투수의 스트라이크보다 볼을 쳐서 인플레이상황을 만들 확률이 높아지게 되고, 따라서 범타의 비율도 증가하게되는 것이죠. 그렇다면 볼넷이 많은 투수는 항상 BABIP가 낮고 볼넷이 적은 투수는 항상 BABIP가 높을까요? 당연히, 그렇지 않습니다. 볼넷이 많더라도 구위가 좋은 투수의 경우에는 볼을 던지더라도 타자들에게 효과적인 유인구로 받아들여지게되고, BABIP도 그만큼 낮출수있겠죠. (ex. 전성기의 박찬호, 배리 지토) 하지만 볼넷이 많으면서 구위도 형편없는 투수의 경우엔 볼은 유인구로서의 기능을 못하게되고 타자들은 스트라이크만 골라서 치게되므로 오히려 BABIP가 높아지게됩니다.

    볼넷이 적고 구위가 좋은 투수의 경우 자신의 구위를 믿고 가운데로 공격적피칭을 하는 경우가 많습니다. 이런 투수의 경우 피안타율도 낮고 삼진율도 높지만 한번맞게되면 좋은타구가 나올 가능성(LD%)이 높아지게 되죠. 즉, BABIP는 높아지게 됩니다.(ex. 전성기의 랜디 존슨, 커트 실링) 아마 삼진이 많아지게 되므로 BABIP((H-HR)/(AB-K-HR+SF))는 확실히 높아지게 되겠죠. 예외적으로, 볼넷이 적은데도 불구하고 BABIP까지 낮은 경우가 있는데, 제구혹은 공의 무브먼트가 매우 좋아 스트라이크존의 구석으로 공을 꽂아넣는 선수들이 이에 해당합니다.(ex. 전성기의 그레그 매덕스, 페드로 마르티네즈) 뭐 타자가 맞춰봐야 범타밖에 되지 않으니 BABIP는 낮을 수 밖에 없겠죠.

    위의 직관적 가정을 바탕으로 Fangraph에서 최근 5년간 BABIP순위를 보면서 한번 분석해보도록합시다. 최근의 기준으로 BABIP는 .300이상이 300미만보다 더 많습니다. 일단 .300이상을 BABIP가 높은선수, .300미만을 낮은선수라고 가정하고, 첫 번째, BABIP.300미만의 선수중 BB/9가 2.00이 안되는 선수를 A타입, 두 번째, BABIP.300이상의 선수중 BB/9가 3.00이 넘는 선수, 그 중에서도 BB/K가 2.00미만이며 HR/9가 1.00이 넘는 선수를 B타입이라 가정한후 이들을 가려보겠습니다. A타입 선수는 제구가 좋은데도 BABIP가 낮은 예외적인 경우이고, B타입 선수는 제구가 좋지 않으면서 구위가 나쁘지도 않은데 BABIP가 높은 예외적인 경우입니다. “제구혹은 무브먼트가 너무 좋아서 BABIP가 낮을 수 밖에 없는 선수”는 일단 제외하겠습니다.

    2005: A - 페드로 마르티네즈, 존 갈랜드, 앤디 페팃, 요한 산타나, 제프 위버, 크리스 카펜터, 바톨로 콜론, 브래드 래드키, 카를로스 실바, 존 리버, 랜디 존슨, 그레그 매덕스, 마크 벌리 / B - A.J 버넷, 맷 클레멘트, 존 래키
    2006: A - 로이 할라데이, 요한 산타나, 크리스 카펜터, 데이빗 부쉬, 그레그 매덕스, 마이크 무시나, 댄 하렌 / B - 비센테 파디야, 에릭 베다드,
    2007: A - 제임스 쉴즈 / B - 켈빔 에스코바르, 스캇 카즈미어
    2008: A - 리키 놀라스코, 제세 리치, 데릭 로, 폴 버드, 그레그 매덕스, 제임스 쉴즈, 로이 할라데이 / B - 맷 케인, 에딘손 볼퀘즈, 길 메쉬, 랜디 울프, 팀 린스컴, 펠릭스 에르난데스, 채드 빌링슬리, A.J 버넷
    2009: A - 테드 릴리, 크리스 카펜터, 댄 하렌, 마크 벌리, 조엘 피네이로, 하비에르 바스케스 / B - 호르헤 델라 로사

    보통 80명 내외의 선발투수중 연평균 10명 정도의 예외 선수가 나오는데요. 사실상 A타입의 선수의 경우 아까 얘기했던 제구가 너무 좋아 스트라이크존의 구석으로 공을 던지기 때문에 BB/9가 낮은데도 BABIP가 낮은 경우까지 생각한다면 순수한 예외선수는 8명도 안된다고 봐야겠지요. 05년의 페드로, 페팃, 산타나, 카펜터, 매덕스, 벌리 06년의 할라데이, 산타나, 카펜터, 매덕스, 하렌 07년의 쉴즈 08년의 매덕스, 쉴즈, 할라데이 09년의 카펜터, 하렌, 벌리 정도가 “제구혹은 무브먼트가 너무 좋은 경우”에 해당하는 투수라고 보입니다. 할라데이, 산타나, 매덕스, 카펜터, 하렌, 벌리는 예외 선수 명단에 꾸준히 들고 있는 것을 보면 BABIP가 투구스타일에 따라 고유한 값을 가진다는 가정이 더더욱 맞아떨어진다고 보여지네요. 나머지 예외선수들은 그야말로 BABIP 혹은 FIP가 얘기하는 운이 좋았던/나빴던 선수라고 보여지구요.

    이처럼 라인드라이브의 확률, 나아가서 BABIP에 투수가 미치는 영향도 상당하구요. 이에 따라 FIP라는 스탯은 ERA를 궁극적으로 대체할수 없는 스탯이라고 생각합니다. 제가 이런 의문을 가지게 된 첫 번째 이유는 94,95의 매덕스보다 01~04의 랜디가 FIP가 훨씬 좋다는 점, 99페드로가 00페드로에 비해 FIP가 훨씬 좋다는 점 때문이죠. 조정방어율 구하는 공식으로 조정FIP를 구해봐도 마찬가지구요. 00페드로의 경우 사실 지켜보는 입장에서 입이 다물어지지않는 퍼포먼스를 보여줬죠. 끝도 없는 삼자범퇴, 무시무시한 포심과 체인지업은 쳐봐야 범타, 당연히 BABIP가 낮게 나올수밖에 없는 상황인데도 BABIP나 FIP상에서는 단지 운이 좋은 투수로 치부되는 점, 게임당 8이닝을 먹고 53경기 출장에 고작 54개의 볼넷을 내주고 12개의 홈런만 맞았으며 역시 줄창 던져대는 투심은 쳤다하면 범타, BABIP가 높아질 수가 없었던 94.95의 매덕스가 FIP에서는 운좋은 투수로 치부되는 점은 정말 상식밖이라 생각합니다. (그것도 94년의 ERA-FIP는 -0.83, 95년의 ERA-FIP는 -0.63 FIP에 따르면 94.95의 매덕스는 2년 연속으로 무지막지하게 운좋은 투수였다는 것이죠)

    저는 아직도 ERA를 궁극적으로 대체할 스탯은 없다고 보이며, 피OPS를 보조적으로 보고, 또한 그 해 최고의 투수를 평가하는데는 리그및시대조정된 Pitching Runs, 혹은 PRAR을 사용합니다. 물론 K/9, BB/9, K/BB, HR/9, BABIP 같은 경우 이처럼 투수의 스타일을 알려주는데 도움이 되죠. 하지만 Fangraph처럼 FIP를 기준으로 투수의 시즌공헌도(WAR)를 평가하는건 상당히 문제가 있다고 생각합니다. FIP로 보면 95년 최고의 투수는 도끼네 매덕스가 아니라 시애틀의 랜디 존슨이 되는데 이게 과연 투수의 능력을 더 정확히 보여주는 잣대인지 매우 의문이 드네요.(조정FIP로 봐도 95매덕스 187, 95랜디 226입니다.) ERA가 문제많다많다하지만 당해투수의 퍼포먼스를 이정도까지 왜곡하지는 않거든요.

    • BlogIcon FreeRedbird 2009.12.02 19:04 신고 Address Modify/Delete

      민망해하실 필요는 없습니다. ^^ 사실 camomile님과 같이 좋은 의견을 주시는 분들에게 Viva El Birdos의 Fanpost와 같은 게시판을 내어 드리고 싶은데요... 아쉽게도 티스토리가 게시판 기능을 지원하지 않는 것 같습니다. 제로보드를 붙이는 것도 불가능하고... 이런 논의가 그냥 댓글 속에 파묻혀 버려서 좀 더 많은 사람들이 볼 수 없는 것이 너무 안타깝네요. 혹 국내에 블로그와 게시판을 동시에 지원하는 서비스가 있나요?? 좋은 곳이 있다면 이사를 고려할지도 모르겠습니다.

      어쨌거나... 본론으로 돌아가서... 남겨주신 글을 무척 흥미롭게 잘 읽었습니다. 라인드라이브의 영향 같은 것은 이미 공감하고 있는 부분이기도 합니다.

      일단 FIP는 수비의 능력을 배제하는 것이 아니고 수비를 리그 평균으로 regression하는 것입니다. 모든 투수의 등 뒤에 똑같은 수준의 수비수들이 있다고 생각했을 때의 퍼포먼스를 계산하는 것이죠. (또한 여기서 가정되는 것은 Replacement Level 수비수가 아니고 리그 평균 수비수 입니다.)

      Maddux와 Big Unit 간의 비교에서.. IP/G는 FIP나 ERA와 같은 레이팅 스탯과는 무관합니다. WAR나 VORP와 같이 Value를 구할 때 문제가 될 수 있겠지요.

      FIP에서 각 이벤트에 붙어 있는 계수(홈런 13, 볼넷 3, 삼진 -2)는 각 이벤트의 Run Expectancy로부터 산출된 것입니다. 소숫점으로 되어 있는 것을 정수화하는 과정에서 약간의 오차가 생길 수는 있습니다만, 탈삼진 투수를 특별히 과대평가하지는 않습니다. FIP가 좋다는 것은 상대 공격의 Run Expectancy를 떨어뜨리므로, 실점을 덜 하게 될 확률이 높아지는 것이죠.

      제가 볼 때는 Big Unit이 과대평가된 것이 아니고, Maddux가 과소평가된 것입니다. 아무리 봐도 Maddux는 다른 투수들에 비해 범타를 유도하는 능력이 뛰어났던 것 같은데, FIP에서 이를 적절히 반영해 주고 있지 않기 때문이죠. Maddux와 Big Unit의 비교에는 FIP 뿐 아니라 이러한 범타 유도 능력, 그리고 수비수들의 능력이 실점에 어떠한 영향을 미쳤는지까지 종합적으로 고려되어야 할 것입니다. 물론 얼마간의 "운"도 있었겠죠. 측정이 어렵지만 말입니다.

      라인드라이브 비율, 즉 LD%는 어느 정도 투수 고유의 수치를 가지는 것이 사실입니다. 그리고 말씀하신 대로 BABIP가 LD%의 영향을 받는 것도 사실이죠. 이렇게 보면 BABIP에 투수가 어느 정도 영향을 미치고 있는 것이 사실이고(저는 이것을 부인한 적이 한 번도 없습니다.), 따라서 FIP의 약점이 됩니다. 문제는 "얼마나 영향을 주는가" 입니다.

      Baseball Prospectus의 2009년 연구 결과를 보겠습니다. 대상은 2003-08년의 투수들 입니다.

      http://www.baseballprospectus.com/article.php?articleid=8932

      투수 스탯의 year to year correlation은 다음과 같이 나와 있습니다.
      K/PA 0.7686
      UIBB(고의사구가 아닌 볼넷)/PA 0.6682
      HR/PA 0.3769
      BABIP 0.2242
      투수 BABIP - 소속팀 수비 BABIP 0.1490

      만약 BABIP가 투수 고유의 skill이라면, 각 투수들의 year to year correlation이 높게 나타나야 할 것입니다. 투수별로 자기 커리어 내에서 BABIP의 편차가 크지 않아야 한다는 것이죠.

      그러나, 보시다시피 BABIP의 year to year correlation은 .2242로 낮은 편이며, 특히 수비의 영향을 배제하기 위해 소속팀 수비 BABIP를 빼 줄 경우 correlation은 0.15 수준으로 떨어집니다. 이 정도면 "미미한 상관관계"밖에 없다고 표현해도 될 것 같습니다. 0.15의 correlation을 가지는 스탯에 대해 "투수마다 고유의 숫자를 가진다"고 표현하는 것은 무리가 아닐까요?? 저는 Maddux와 같은 투수는 정말 특별한 예외의 case라고 생각합니다.

      반면, K 비율이나 BB 비율은 상관관계가 매우 높게 나타납니다. HR 비율의 경우 K나 BB보다는 약하지만 BABIP에 비하면 여전히 우수한 상관관계를 보여주고 있습니다. 이를 바탕으로 볼 때, BABIP를 포기하고 이보다 훨씬 투수 고유의 능력을 잘 보여주는 K, BB, HR 비율을 이용하여 산출하는 FIP가 다른 스탯들에 비해 우수하다고 보는 것이 충분히 합리적이지 않을까요? (HR비율의 correlation이 비교적 낮은 것이 신경쓰이시면 xFIP를 이용하시면 되지요.)

      이왕이면 BABIP에 미치는 투수의 약한 영향력도 고려해 주면 더욱 좋을 것입니다. 그래서 LD%를 포함하는 tRA가 개발되었습니다. 하지만, 본문에서 지적한 바와 같이 PbP 데이터를 기록하는 사람의 주관이 포함된다는 새로운 문제가 나타나게 됩니다. 만약 GB와 LD, FB를 무 자르듯 명확히 구분할 수 있다면, tRA가 가장 좋은 스탯이 되겠지요.

      참고로.. 첫 댓글에서 "삼진율이 높으면 BABIP가 급격히 증가"하고 다음 댓글에서 "볼넷이 적으면 BABIP가 높다"고 말씀하셨는데요.. 역시 Baseball Prospectus의 연구결과를 보면... BABIP와 삼진 비율 사이에는 -0.138의 미미한 역 상관관계가 있으며(삼진율이 높으면 BABIP가 내려가는 매우 약한 상관관계가 존재), 볼넷 비율과 BABIP 사이에는 -0.002로 아무 상관관계가 없습니다.
      http://www.baseball-analysis.com/article.php?articleid=9595

      ERA나 WHIP, 피OPS 등은 투수의 능력을 평가하는 유용한 도구가 되기에는 부족함이 너무 많습니다. ERA에 대해서는 이미 본문에서 네 가지의 중요한 문제점을 말씀 드렸습니다. 한 가지 예를 더 들어보죠. 8회 2사 만루에서 투수의 실투로 인해 2루타를 맞고 3실점하면, 에러와 투수교체가 없었다는 가정 하에 3 ER이 됩니다. 만약 9회말 동점 상황에서 2사 만루였고, 똑같이 투수가 실투하여 2루타성 타구를 맞았다면, 이번에는 1점이 나는 순간 게임이 끝나기 때문에 1실점만 한 것으로 처리되어 1 ER이 됩니다. 만약 앞의 두 경우에 있어서 중간에 수비 에러가 하나 끼어 있었다면, 똑같이 실투로 2루타를 맞았더라도 이번에는 0 ER이 됩니다. 투수는 이 모든 경우에 똑같이 실투를 하여 2루타를 맞았지만, 자책점은 제각기 다르고, 투수에 대한 평가도 모두 다르게 됩니다. 이런 엉터리 스탯이 과연 투수의 퍼포먼스를 제대로 평가할 수 있을까요? 만약 "상황" 혹은 Sequence라는 변수를 반영하고 싶으시다면 차라리 WPA가 대안이 될 수 있을 것입니다.

      WHIP은 볼넷, 1루타, 2루타, 3루타, 홈런을 모두 똑같이 취급하고, 게다가 고의사구와 보통 볼넷도 똑같이 취급합니다. 이게 얼마나 문제가 많은 접근법인지는 설명을 드리지 않아도 될 것 같습니다...

      피OPS는 OPS와 동일한 문제를 안고 있습니다. 1) 출루율과 장타율을 1:1로 반영하는 것, 2) 출루율 계산시 WHIP와 동일한 문제가 발생하는 것(모든 출루 이벤트를 똑같이 취급), 3) 장타율 계산시 안타의 가치가 타자주자가 진루한 베이스 숫자에 비례한다고 가정하는 것... 이렇게 세 가지 문제가 발생하죠. 2)와 3)이 상쇄되면 좋겠지만 안타깝게도 그렇게 되지 않습니다. 차라리 피wOBA나 피EqA가 나을 듯 합니다.


      ps. 선구안과 LD%의 상관관계는 잘 이해가 되지 않는데요.. Fangraphs에 의하면 Vladimir Guerrero의 커리어 LD%는 19.2%입니다. 또다른 배드볼 히터인 Garciaparra의 커리어 LD%는 21.8%로 Pujols보다도 높습니다. 선구안과 BB%는 밀접한 관계가 있겠지만... LD%와 관계가 있을지는 의문입니다. (이것은 나중에 시간 될 때 제가 직접 엑셀을 돌려 보도록 하지요...)

  3. camomile 2009.12.03 00:17 Address Modify/Delete Reply

    말씀대로 조정된 피wOBA나 피EqA를 제공해주는 사이트가 있다면 저는 피OPS보다 피wOBA,피EqA를 보조적으로 사용하겠습니다. 또한 LD% 게레로에 대한 건 제가 실수를 했네요. 죄송합니다.

    ERA나 WHIP가 당면한 문제점이 많은 것은 저도 인정하는 바입니다. 하지만, 이 두 스탯은 리그 전체 투수에 동일하게 적용되는 문제점입니다. ERA의 경우 '자책점'이라는 개념에 대한 갑론을박으로 일부에서는 ERA보다 RA(평균실점률)을 사용하기도 하지요.

    하지만, FIP의 문제점은 리그 투수들에게 동일하게 적용되지 않습니다. FIP로 투수를 평가하기 위해서는 투수의 스탯이 쌓이면 쌓일수록 그 투수의 커리어 ERA와 커리어 FIP는 수렴해야 정상입니다. 하지만 톰 글래빈 같은 투수의 경우 매년 FIP에 비해 상당히 낮은 ERA를 보이고 있습니다. 커트 실링의 경우 매년 FIP에 비해 상당히 높은 ERA를 기록하고 있구요. 글래빈은 매년 그렇게 운이 좋았던 것일까요? 실링은 매년 그렇게 운이 나빴을까요? 과연 BABIP에 투수가 미치는 영향이 미미한 수준으로 봐야하나요? 유인구를 많이 섞는 글래빈의 경우 범타유인률이 높아 BABIP를 낮게 유지할 수 있었으며, 무시무시한 구위의 포심과 스플리터로 타자와 정면승부를 고집했던 실링은 잘맞은 타구가 나올확률이 높아 BABIP를 높게 유지할 수 있다고 보는것이 더 옳지 않을까요?

    여기 또 한명의 선발투수가 있습니다. 이름은 랜디 존슨이라고 하죠. 이 선수는 초창기에는 A급 구위를 가졌으나 B~C급의 제구력을 가진 선수였습니다. 하지만 이 선수는 1995년을 기점으로 원래 A급이었던 구위가 A++급으로 올라갔고(K/9 10.0이상->12.0이상) 제구는 급격히 좋아졌습니다. (BB/9 3.0~7.0 -> 3.0미만) 제가 앞글에서 가정한 바 대로 이 선수의 BABIP를 예측해보죠. 이 선수는 95년 전에는 구위는 좋지만 제구가 딸려서 볼넷도 많이 주고, 타자들은 이 선수의 볼을 치다가 범타가 될 확률이 높아질 것 같네요. BABIP는 따라서 낮겠군요. 95년 이후의 이 선수는 제구도 좋고 구위는 메이저리그 올타임으로 따져도 5손가락안에 들 선수지요. 주구장창 자신의 구위를 믿고 정면승부를 할 가능성이 높겠군요. 타자들은 거의 손도 못대겠지만, 일단 맞으면 잘맞은 타구가 될 가능성이 높을것 같군요. BABIP는 높지 않을까요?

    실제로 랜디존슨이 풀타임을 뛴 89년부터 94년까지의 BABIP변화는 293,258,286,286,283,296입니다. 95년 이후 전성기의 마지막이라고 평가되는 04년까지의 BABIP변화는 321,313,291,333,306,336,328,300,357,283입니다. 이상하지 않습니까?

    Freeredbird님께서는 FIP상에서 그렉 매덕스는 과소평가되었다고 하셨는데, 제가 보기에는 매덕스 뿐만 아니라 글래빈, 전성기의 지토도 마찬가지입니다. 일일이 찾아보면 더 많은 선수가 나올 것 같네요. FIP로 투수를 평가한다면, 이런 선수들은 어떻게 구제하나요? 모든 선수를 일관된 잣대로 평가할 수가 없는데, 과연 그 Tool이 유용할 지 의문입니다.

    또한, 득점과의 Correlation 등 세이버매트리션들은 여러가지 각도에서 회귀분석을 하고 있는데요. 저는 Correlation이 높고, RMSE가 낮다고 해서 더 합리적인 스탯이라고 생각하지 않습니다. 왜냐하면 리그 전체 데이타로 분석해봐야 개별 선수관점에서 보면 분명히 달라지게되있거든요. 대표적 타격스탯인 Runs Created. 이제는 문제점이 너무 많은 스탯이기도 하지만, 그 많은 문제점 중 하나가 바로 준족의 선수가치를 완전히 무시하고 있다는 것이죠. 도루-도실의 even point 계산은 물론 득점과의 Correlation을 통해서 산출해냈겠지만, 사실 팀전체 RC를 구해봐도 도루의 가치는 도실에 의해 무의미해집니다. 개인적 관점에서 본다면 더더욱 그렇죠. 다른 스탯이 모두 같은 A와 B의 선수중 A는 1도루 0도실, B는 70도루 25도실을 했다고 가정시 RC상에서는 A선수가 B선수보다 높게되죠. 하지만 진짜 선수의 가치는 누가 더 높을까요? A,B 출루시 후속타자의 더블플레이확률, 후속타자 단타시 A,B의 추가베이스진루현황, A,B 출루시 배터리의 집중력 분산 및 투수의 멘탈에 미치는 영향, 실제 B도루시 포수의 송구에러...일일이 따져보지않아도 A보다 B가 더 가치있는 선수임에 분명하지만, RC에서는 그것을 반영하지 못하죠. 득점과 도루간 Correlation이 극히 미미하기때문에 EqA보다 wOBA의 Correlation이 더 높고 RMSE가 더 낮다는 것도 이해되는 것이죠. 하지만 제가 생각하기에 "선수개인"을 평가하는데 있어서 EqA는 wOBA보다 더 좋은 스탯입니다. 게다가 EqA는 도루-도실의 이븐포인트를 RC나 XR과 달리 합리적으로 잡고 있죠. 즉, 준족인 선수에 대한 가치를 더 높게 평가하고 있습니다. 치환시 발생하는 문제점을 없애기위해 치환하지 않고 단순한 RawEqA로 봐도 EqA는 상당히 합리적인 스탯이죠. 말이 좀 딴데로 갔는데, 세이버상에서의 다중회귀분석은 방법론상으로 적절치못하다는 것은 아니지만, 선수개인의 평가차원에서 그것을 그대로 적용하는 것은 빠뜨리는 부분이 많다는 것입니다. 세이버가 득세하는 최근에도 스몰볼은 여전히 야구의 큰 부분을 차지하고 있습니다. 희생번트, 도루, 힛앤런 같은 작전들이 큰 틀에서 보면 팀승률에 도움이 되지않을지몰라도 당시 경기상황, 즉 투수가 왼손투수인지 오른손투수인지, 다음 타자의 수준이 어떻게 되는지, 주자의 주루플레이가 평균이상인지, 포수의 어깨 및 포구능력이 어떻게 되는지에 따라 팀승률에 결정적인 역할을 할 수 있다고 생각됩니다.

    뭐 잠깐 산으로 갔지만, 결론은 BABIP는 통계적 결론에도 불구하고 투수에 의해 상당한 부분이 통제된다고 생각합니다. 따라서 FIP로 투수를 평가했을때, 분명히 그로 인해 피해를 보는 투수가 존재하므로 기존의 스탯을 대체할만큼 유용한 스탯이라고 보기에는 무리가 있다는 것이 제 주장입니다.

    • camomile 2009.12.03 00:24 Address Modify/Delete

      사족입니다만 우리의 소중한 리그 NO.1 Absolute Ace Chris Carpenter 역시 FIP의 가장 큰 피해자 중 하나라고 확신합니다.

    • BlogIcon FreeRedbird 2009.12.05 01:43 신고 Address Modify/Delete

      FIP 하나로만 투수를 평가한다면, 삼진, 볼넷, 홈런(플라이볼) 이외에 BABIP를 낮게 유지할 수 있는 다른 능력을 가지고 있는 투수일수록 본의아니게 피해를 입게 되겠지요. 그렇기 때문에 저는 LD%를 계산에 반영하는 tRA를 가장 중요한 보조 스탯으로 사용합니다. (아.. 본문에서 빼먹었는데.. tRA는 ERA가 아니라 RA Scale의 스탯입니다.)

      "모든 선수를 일관된 잣대로 평가할 수 없는데, 과연 그 Tool이 유용할 지 의문"이라고 하셨습니다만...
      모든 투수에게 공정하고 모든 투수에게 공평한 스탯이 존재하나요? ERA가 모든 투수에게 공정한가요? ERA나 WHIP이 FIP보다 공정하다고 볼 수 있는 근거가 무엇인지 잘 모르겠습니다. (FIP가 심지어 WHIP과 비교되게 되다니 불쌍하다는 생각도 드네요... ㅎㅎㅎ)

      ERA의 무수히 많은 문제점은 이미 여러 번 말씀드렸으니 더 이상 반복하지는 않겠습니다만... ERA의 특성상 수비력이 좋은 팀에서 뛰는 투수가 그렇지 않은 투수에 비해 실점을 덜 하게 되어 유리할 수밖에 없는데... 이것은 너무나도 불공평한 것이지 않은가요? 앞의 댓글에서 보여드린 것처럼 이전 투수가 내보낸 주자는 아무리 많이 홈으로 들여보내도 본인에게는 아무런 영향이 없는데, 이것이 과연 공정한 규칙인가요? 저에게 어느 쪽이 덜 불공정한 스탯인지를 물으신다면.. 역시 FIP의 손을 들어 주겠습니다.

      WHIP의 경우는 볼넷, 1루타, 2루타, 3루타, 홈런을 모두 동일하게 취급하므로... 볼넷 100개를 내준 투수와 1루타 100개를 맞은 투수, 홈런 100개를 맞은 투수가 모두 똑같은 WHIP을 가지게 됩니다. Run Value로 보면 홈런의 가치는 볼넷이나 1루타보다 3배 이상 많은데요... WHIP에서는 모두 동일한 가치를 가지는 것처럼 같은 값으로 regression 되어 버립니다. 즉... WHIP는 장타를 많이 얻어맞는 한심한 투수에게 유리한 스탯인 것입니다. 저는 ERA에 대해 매우 비판적이기는 해도 투수를 볼 때 참고 스탯으로 같이 활용하고 있습니다만... WHIP는 거의 쓸모 없는 스탯으로 생각하여 참고하지 않습니다. 참, 저도 ERA보다는 RA를 더 중시하는 쪽이기도 합니다.


      투수의 탈삼진 능력과 BABIP의 관계에 대해 말씀하신 가정은 저도 일리가 있다고 생각했기에, 제 나름대로 어설프게나마 검증을 시도해 보았습니다. 먼저 Baesball-Reference에서 1990년부터 2009년까지 20년 동안 1000IP 이상을 던진 투수 211명의 스탯을 다운받아서 K/9와 BB/9, BABIP사이의 상관관계를 구해 보았습니다. 그 결과는 이전 댓글에서 말씀드린 Baseball Reference의 결과와 거의 동일했습니다. K/9와 BABIP 사이에는 무척 미미한 음의 상관관계가 있었고(K/9가 높아지면 BABIP가 아주 조금씩 떨어진다는 거죠. 어차피 상관계수가 0.17에 불과하고 결정계수가 0.03이어서 설명력 자체가 별로 없습니다만.) BB/9와 BABIP 사이의 상관관계는 다중상관계수 0.003으로 전혀 아무런 상관이 없었습니다.

      여기까지 한 뒤에, 이것은 전체 리그를 대상으로 한 계산결과이고, 개별 투수들을 대상으로 하면 뭔가 다른 결과를 얻을 수 있지 않을까 라는 생각이 들었습니다. 말씀하신 Randy Johnson의 예처럼 말입니다. 그래서, 위의 1000IP 이상 투수들 211명 중에서 투구 이닝 수 상위 15명을 대상으로 각 투수의 커리어 내에서 다시 K/9와 BABIP의 관계에 대해 회귀분석을 시도해 보았습니다. 211명을 전부 다 하기에는 시간이 없어서요...

      분석대상 15명의 명단은 다음과 같습니다.

      Greg Maddux, Tom Glavine, Randy Johnson, Roger Clemens, Mike Mussina, Jamie Moyer, David Wells, Curt Schilling, Kenny Rogers, John Smoltz, Kevin Brown, Andy Pettitte, Pedro Martinez, Livan Hernandez, Chuck Finley

      실제로는 Tim Wakefield가 12위인데 너클볼러는 너무 특수한 케이스인것 같아 제외하였고, 대신 16위인 Finley를 넣었습니다. 모두들 쟁쟁한 이름들이죠... 마침 투구 스타일도 제각각이고.. 좋은 샘플들이라고 생각합니다.

      이들 각각의 커리어에서 50이닝 이하를 던진 해는 제외하고 year to year correlation을 구해 본 결과, 말씀하신 것과 같은 K/9와 BABIP 사이의 양의 상관관계, 즉 탈삼진 능력이 향상되면 BABIP가 올라간다는 것이 확인되는 투수는 Big Unit과 Smoltz 두 명 뿐이었습니다. Greg Maddux와 Livan Hernandez의 경우는 반대로 상당히 의미있는 음의 상관관계가 도출되었고요... 나머지 11명은 유의미한 상관관계를 찾을 수 없었습니다. Kevin Brown 같은 경우는 커리어에서 Randy Johnson 이상으로 드라마틱한 K/9 비율의 변화를 보였습니다만(4점대의 K/9에서 시작하여 9까지 올라갔다가 다시 서서히 내려옵니다) 상관계수가 0.08에 불과할 만큼 아무런 유의미한 관계를 도출하지 못했습니다. camomile님의 가설은 매력적입니다만, 아쉽게도 통계적으로 검증이 잘 되지는 않는 것 같습니다. Randy Johnson이 마침 제안하신 가설과 잘 들어맞는 예였던 것이지요.


      사실 똑같은 것은 아니지만, 비슷한 연구 결과가 있습니다. Tango/Litchman/Dolphin의 <The Book>에서 고의사구에 관한 챕터를 보시면 투수가 그냥 승부를 하는 경우와 Pitch Around하는 경우를 비교한 데이터가 있습니다. 이들도 "투수가 정면승부하지 않으면 타자가 제대로 맞추는 경우가 적을 것이다"라는 기대를 가지고 계산했으나 결과는 전혀 그렇지 않았습니다. 기대와 달리 그냥 승부할 때나 Pitch Around할 때나 거의 똑같았던 것이죠.

      Correlation과 RMSE가 모든 것을 설명해주지는 못합니다. 통계는 결국 도구일 뿐이지 그 자체가 목적인 것도 아니고요. 하지만 적어도 현 시점에서는 매우 유용한 접근 방법으로 널리 공인되어 있는 방법입니다. 절대적인 Best는 아니더라도 우리가 생각할 수 있는 수준의 합리적 접근이라고 생각이 되고요. 이것마저 부인하신다면 우리가 어떤 방법으로 야구의 통계적인 데이터를 분석하고 일반적인 결론을 도출하려는 시도를 할 수 있는지 잘 모르겠습니다. 이전 댓글에서 K/9의 연간 상관계수가 0.7686이고 수비를 뺀 BABIP의 연간 상관계수가 0.1490이라고 말씀 드렸습니다. 이는 K/9가 BABIP에 비해 0.7686/0.1490=5.16배 더 정확히 투수 고유의 능력을 잘 보여준다는 의미는 절대 아닙니다. 하지만, 이정도로 큰 상관계수의 차이가 존재한다면, 투수의 K/9에 대한 controlability는 BABIP에 대한 controlability에 비해 현저히 높다고 말해도 되는 것이 아닐까요? 적어도 이정도를 인정할 수는 있을 것 같은데요...

      중간에 RC를 비판하신 부분은 동감합니다. 물론 EqA가 wOBA보다 더 좋은 스탯이라는 부분만 빼고요. ^^ 저는 어디까지나 계속 wOBA의 편입니다.

      다만... 세이버메트릭스의 득세에도 불구하고 스몰볼이 여전히 야구의 큰 부분을 차지하고 있다고 한다면.. 그 득세하고 있는 세이버메트릭스가 잘못된 것입니다. 스몰볼을 무시하고 폄하하는 것은 세이버메트릭스 커뮤니티가 OBP를 무조건 신성한 스탯으로 떠받들던 한 10년 전 쯤의 이야기입니다. 희생번트가 무조건 나쁘다는 것도 그 시절의 주류 이론이었죠.

      Moneyball 책에 묘사된 세이버메트릭스가 그런 것일 수도 있겠네요. 책에서 워낙 스카우트와 스몰볼을 쓰레기 취급하고 있으니까요... 확실히 Oakland에서 Jeremy Giambi가 리드오프를 치던 시절의 세이버메트릭스는 실제로 그런 면이 있었고... 어쨌든 Billy Bean 단장의 Oakland Athletics가 계속 플레이오프 진출에 성공하고 Moneyball 책도 대박을 치면서 그런 이미지가 굳어진 측면도 있습니다.

      하지만 제가 블로그와 여러 게시판을 통해 공유하고자 하는 세이버메트릭스는 그런 편견 덩어리가 아닙니다. 최근에는 희생번트나 도루와 같은 플레이에 대해, 이전보다 훨씬 객관적인 시각에서 조명이 이루어지고 있습니다. 예를 들어, 다시 Tom Tango를 인용하자면, 주자가 1루에 나가서 도루가 가능한 상황이 되면, 타석에 들어선 타자의 wOBA는 평균 0.015 상승합니다. 1루주자로 인해 수비가 흔들리는 증거인 것이죠.

      역시 논의가 산으로 갔습니다만, 저는 역시 BABIP가 통계적 결론과 상관없이 투수에 의해 상당 부분 통제가 가능하다는 님의 결론에 동의해 드릴 수 없습니다. 이 문제는 McCracken이 BABIP에 대해 BP에 글을 쓴 이후 지금까지 약 10년 동안 세이버메트릭스 커뮤니티에서 가장 활발히 논의된 주제이지만, 앞의 댓글에서 보여드린 2009년 BP 연구에서 보시는 바와 같이 여전히 "BABIP에 대해 투수가 미치는 영향은 작다"는 것이 대세입니다. 남의 이야기를 무조건 신뢰하지는 않기에, 그리고 님의 가설이 설득력이 있다고 생각했기에, 저도 저 나름대로 통계적 검증을 시도해 보았습니만, 저 역시 투수가 BABIP의 상당히 큰 부분을 통제할 수 있다는 아무런 증거를 얻지 못했습니다. 또한, 투수가 BABIP에 미치는 영향은 제한적이므로, FIP는 충분히 유용한 스탯이며, ERA와 비교해도 상대적으로 공정한 스탯이라고 생각합니다.


      포스팅이 아니라 댓글을 달기 위해 이렇게 데이터를 잔뜩 받아서 분석하고, 며칠 동안 생각을 하게 될 줄은 몰랐습니다. 다만 님의 주장하시는 바에 동의를 해 드리기 어려운 것은 안타깝네요. ㅎㅎㅎ 저로서는 댓글을 통한 논쟁을 거치면서 오히려 FIP와 tRA를 주로 참고하는 제 방법에 오히려 더 신뢰를 가지게 되었습니다. ^^ 저와는 많은 부분에서 관점이 다르시지만 그래도 저는 님의 의견을 존중합니다. 언젠가는 제가 틀린 것으로 판명이 날 수도 있는 것이겠지요.

      우리나라는 세이버메트릭스 인구가 별로 없다보니 이런 토론을 할 기회도 찾기 어려운 것 같습니다. 앞으로도 계속 관심 가져 주시고 좋은 의견 부탁 드립니다. ^^

  4. camomile 2009.12.07 00:19 Address Modify/Delete Reply

    제가 WHIP를 보조적으로 사용하는 이유는 WHIP만큼 투수의 도미넌트함을 그대로 보여주는 지표가 없다고 생각하기 때문입니다. 경기보다보면 아 이선수 정말 잘한다는 느낌을 받는데 보통 WHIP가 굉장히 낮은 경우가 많더라구요. 즉, WHIP가 극히 낮은 선수(<1.0)는 운이나 이런 것보다 자신의 능력으로 도미넌트한 스탯을 찍는 경우가 많은데 보통 투수들의 경우 WHIP가 1이하로 떨어지면 대부분 자신의 커리어 BABIP보다 상당히 낮은 시즌BABIP를 기록하는데 이는 WHIP가 낮은 시즌의 그 투수는 스스로 안타를 억제할 수 있을만큼 도미넌트했다고 볼 수도 있겠지요.

    또한 BABIP는 단순히 BB/9, K/9등과 회귀분석을 돌려 상관관계를 보는 것 보다는 투수를 BB/9.K/9,피안타율,HR/9,WHIP 등을 기준으로 유형화해서 살펴봐야될 것 같아요. 실제로 구위가 어느정도 되면서 제구가 좋지 않은 투수를 AVG<.240, BB/9>3.50으로 유형화해서 살펴보니 총 35번의 시즌 중 29회(82.9%)가 자신의 커리어BABIP보다 낮은 BABIP를 기록했구요.(참고로 제 표본은 Freeredbird님의 표본투수+Al Leiter, David Cone, Mike Hampton, Park Chan Ho, Nomo Hideo, C.C. Sabathia, Cliff Lee, Tim Lincecum, Josh Beckett, Roy Halladay, Chris Carpenter, Brandon Webb, Jake Peavy, Roy Oswalt, John Lackey, Ben Sheets, Brad Penny, Barry Zito, Tim Hudson, A.J. Burnett, Carlos Zambrano, Johan Santana, Dan Haren, Javier Vasquez입니다.) 압도적으로 도미넌트한 시즌(WHIP<=1.0)을 보낸 투수는 그해 자신의 커리어BABIP보다 보통 낮은 BABIP를 기록한 경우가 많더군요.(23회중 20회, 87.0%)

    제가 뜻하는 바가 제대로 전달되었는지 모르겠는데(말주변이 없어서;;) 즉 각 스탯의 추세를 보면서 상관관계를 따지는 것 보다 투수를 스탯에 따라 유형화해야된다는 것이죠. BB/9가 낮은 투수, 높은 투수로 유형화할 것은 아니고 두 투수가 BB/9가 낮더라도 K/9, 피안타율, WHIP등에 따라 전혀 다른 투수가 된다는 것이죠.

    원초적으로 한결같이 BABIP가 낮은 투수와 한결같이 BABIP가 높은 투수가 있다면 당연히 의심을 해봐야하는 것이 아닌가 싶네요. 하지만 저도 이번 토론을 통해 FIP를 완전 배제하고 보는 스탯이 아니라 상당히 참고할만한 스탯이라는 점에는 공감을 하게 되었네요. 역시 팀수비에 따른 운이란 요소는 배제를 하는것이 당연하니까요.

    하지만 95 매덕스와 95 랜디는 FIP에 따르면 시즌을 100회 돌릴 경우 95 랜디가 95 매덕스보다 더 좋은 성적을 올릴 가능성이 높다고 보는 것인데 상당히 동의하기 힘드네요. 페드로 역시 시즌을 100회 돌리면 99년이 00년보다 훨씬 압도적인 성적을 거둔다는 것인데 과연?? 이란 생각이 듭니다. 페드로가 00년 세운 MLB 올타임 WHIP, 피안타율, 피출루율은 운에의한 것이었다는 것인데 글쎄요.

    암튼 Freeredbird님이 말씀하신 것처럼 좋은 토론이었구요. 질문하나 드리고 싶은게 있는데요. Fangraph의 WPA계산시 인플레이된후 유격수가 잡아서 1루수에게 어시스트를 한 경우, +되는 것은 투수가 아니라 유격수와 1루수인가요?

    • BlogIcon FreeRedbird 2009.12.07 11:26 신고 Address Modify/Delete

      그렇군요. WHIP가 한 눈에 "힐끗" 보기에는 쓸모가 있을 지도 모르겠네요. 물론 저는 WHIP 특유의 모든 이벤트를 똑같은 가치로 취급하는 regression 외에도 WHIP가 결국 피안타율과 BABIP에 큰 영향을 받는다는 것 때문에 거부감이 있습니다만... 나름 활용할 여지도 있을 것 같습니다.

      말씀하신 내용은 제 입장에서는 정반대로 생각하는 것도 가능합니다. 특정 시즌에 어떤 이유로 인해 BABIP가 낮다 보니 피안타율이 낮고(AVG <.240) 따라서 WHIP도 낮고, 도미넌트한 시즌을 보냈다고 인과를 뒤집어 해석할 수도 있는 것이죠. 이런 부분은 좀 더 연구가 필요한 것 같습니다. 그리고, 말씀하신 것처럼 스탯에 따라 투수를 유형화하는 것은 좋은 아이디어인 것 같습니다.

      시즌을 100번 돌리면 어느 쪽이 더 성적이 좋을까... 역사에 if가 없으니 알 수 없지만... 저라면 그래도 FIP가 낮은 쪽에 걸겠습니다. ^^ 이거 OOTP라도 가지고 실험을 해 볼까 하는 생각도 드네요. 물론 선수의 능력치를 어떻게 세팅하느냐에 따라 결과가 달라질 것 같아서 객관적 실험이 어렵겠지만 말입니다...

      WPA에 대해서는 저도 좀 더 살펴보고 답을 드리겠습니다.

    • BlogIcon FreeRedbird 2009.12.30 04:24 신고 Address Modify/Delete

      Fangraphs의 WPA 계산에서는 수비수에게 WPA가 가지 않으며, 오직 타자와 투수에게만 적용합니다. 이렇게 되면 공격측은 그렇다 치더라도... 수비쪽은 투수와 수비 간에 책임을 나누는 문제가 생기게 됩니다.

      HBP나 BB, K, HR, WP 등과 같은 플레이의 경우 아무 문제가 없습니다만... "잡을 수 있을 것 같은 공인데 수비수가 잡지 못한 안타"라든지, "잡을 수 있는 공을 놓친 에러"의 경우, 상당 부분 수비에게 책임이 있을 것입니다. 혹은 "매우 어려운 타구였으나 뛰어난 수비로 아웃 처리한 경우", 역시 상당 부분 수비에게 공이 있겠지요. 하지만 이렇게 책임 혹은 공을 투수와 수비 사이에서 나누는 것은 주관적인 판단의 영역이므로, Fangraphs는 모든 상황을 아예 100% 투수 책임으로 돌림으로써 주관의 개입을 배제해 버린 것이지요.

      투수 입장에서 한 시즌을 풀로 뛰다 보면 수비 덕분에 WPA에서 이득을 보는 때도 있고 손해를 보는 때도 있을 것이니 어느 정도는 상쇄될 것 같습니다만... 결국 좋은 수비수들과 같은 팀에서 뛰고 있다면 아무래도 WPA 계산에서도 이득을 보겠지요. 좋은 수비수들이 호수비로 아웃을 더 많이 만들어내지만, 그 공은 모두 투수에게 돌아가도록 되어 있으니까요...

  5. asd 2012.07.24 02:40 Address Modify/Delete Reply

    라인드라이브 비율, 팝업 비율 같은 경우는 투수가 상당부분 제어 가능한 영역인가요?

  6. k 2012.09.14 19:22 Address Modify/Delete Reply

    Expected Run Value라는 건 모든 투수에게 동일하게 적용되는 건가요?
    페드로처럼 출루를 매우 적게 허용하는 투수와 지토처럼 항상 주자를 쌓아놓는 듯한 투수는 똑같이 홈런을 하나 맞더라도 파생되는 실점이 차이가 날 것 같은데

    • BlogIcon FreeRedbird 2012.09.17 13:32 신고 Address Modify/Delete

      각 event의 run value는 리그 전체 기준이므로 모든 투수에게 똑같이 적용됩니다. Pedro와 Zito의 차이는 event별 run value의 차이가 아니라, event 자체의 발생 빈도에서 나타나게 됩니다. Zito는 Pedro보다 볼넷을 더 많이 허용하고, 라인드라이브도 더 많이 허용하므로, 당연히 주자도 더 많이 내보내고 실점도 더 많이 하게 되는 것입니다.