Sabermetrics_Stats

SIERA(Skill-Interactive ERA) : 새로운 투수 스탯의 탄생

FreeRedbird 2010. 2. 19. 11:26
(주의: 이 글은 그동안 적어온 세이버메트릭스 글 중에서도 매우 매니악한 분위기의 글이다. 마음의 준비를 하고 읽으시기를...)

Baseball Prospectus가 세이버메트릭스의 중심지이던 시절이 있었다. Voros McCracken이 DIPS 이론을 발표하고, Keith Woolner가 Replacement Level 및 VORP를 소개하던 2000년대 초반이 바로 그 시기이다. 이후 Nate Silver와 Clay Davenport 등 뛰어난 세이버메트리션들이 활약하면서 WARP, EqA와 같은 새로운 스탯과 퍼포먼스 예측 시스템인 PECOTA를 내놓으며 지속적으로 상당한 영향력을 행사해 왔다. 그러나, 최근 들어서는 BP에서 독자적으로 내놓은 기존 스탯들이 많은 비판을 받고, 반면 별다른 새로운 것을 내놓지 못하면서 다소 침체에 빠진 것도 사실이다. Dave Cameron 등은 대놓고 BP를 한물 간 퇴물집단으로 취급하고 있기도 하다. (물론 이것은 세이버메트릭스에 국한된 이야기이고... BP의 Kevin Goldstein이나 Will Carroll 등은 좋은 읽을거리를 많이 제공하는 괜찮은 칼럼니스트들이다.)

그러한 BP가 최근 들어 Eric Seidman, Colin Wyers, Matt Swartz 등을 새로 필진으로 영입한 것은 바람직한 변화의 흐름이라고 할 수 있다. 이번에 Eric Seidman과 Matt Swartz가 SIERA를 발표하는 모습에서도 BP의 변화를 볼 수 있다. BP는 보통 자신들의 스탯에 대해 계산과정에 대한 자세한 설명을 공개하지 않으며, 그나마도 유료 회원 전용 컨텐츠로만 올려놓는 경우가 많았다. 이러한 폐쇄성은 그 자체로도 비난의 대상이 되어 왔고, 발전적인 논의가 풍부하게 재생성되는 데 큰 지장을 주어 왔다. 하지만, 이번 SIERA의 경우는 무려 5개의 포스팅에 걸쳐서 기본 컨셉과 계산 과정이 비회원에게도 상세하게 공개되어 있는 것이다. 아래 링크의 인트로 페이지에 가면 5개의 포스팅을 모두 볼 수 있다.

링크(Baseball Prospectus의 SIERA 페이지)

SIERA는 Skill-Interactive ERA의 약자이다. (이 스탯의 이름을 보면서 과거에 잘나갔던 게임회사 SIERRA를 떠올리는 것은 나 뿐일까??) 이 스탯을 이해하기 위해서는, 역시 BP를 통해 2006년에 발표되었던 Nate Silver의 QERA를 먼저 살펴보는 것이 좋을 것이다.

QERA는 Quick ERA의 약자이다. Nate Silver의 글에 따르면(이 글은 유료 컨텐츠이다. 이런 것들이 BP의 폐쇄성을 나타내는 것이다. 돈을 벌고자 하는 것은 전혀 나쁜 것이 아니지만, 이런 기본적인 글조차 유료인 것은 많은 사람들이 이 스탯에 대해 토론할 기회를 박탈하는 것이다. 게다가 이 글은 발표된지 3년이 넘게 지났는데, 아직도 유료컨텐츠로 묶어둘 이유가 무엇이 있을까? BP 사람들 이외에 거의 아무도 QERA를 쓰지 않는 것은 다 이유가 있다.), 투수의 스탯 중에서 K%, BB%, GB%/FB%가 투수에 따라 상당히 일관된 경향을 보이며, 나아가 투수의 ERA와 밀접한 상관 관계를 갖는다는 것이다. 따라서, 위의 숫자만 가지고 투수의 ERA를 예측할 수 있는 식을 개발하였다.

QERA = (2.69 - 3.4*K% + 3.88*BB% - 0.66*GB%)^2

FIP가 K, BB(+HBP), HR을 사용하는 것과 비교하면, HR 대신 GB%를 사용하는 것이 가장 큰 차이임을 주목하시기 바란다. 또한, 이 식은 선형함수가 아님을 알 수 있는데, 주자를 누상에 내보내면 더욱 많은 점수를 실점하게 되므로 실점은 Linear하게 나타나지 않다는 BP의 주장을 반영하고 있다.

그런데, 이 스탯은 구조적인 문제를 안고 있었다. K%나 BB%가 K/PA, BB/PA로 계산되는 데 반해, GB%는 GB/BIP(Ball in Play), 즉 인플레이가 된 타구 중에서의 GB 비율로, 비교 대상이 되는 숫자가 서로 다른 것이다. 게다가, Eric Seidman과 Matt Swartz(이하 Eric/Matt)에 따르면, 이 식은 "K, BB, GB 간의 상관관계를 제대로 고려하지 않았다"는 것이다.

그래서, Eric/Matt은 QERA를 업그레이드하기로 했다. 그들은 GB/BIP를 (GB-FB-PU)PA로 바꿔서 비교대상을 PA로 통일하였다. (여기에서의 FB는 외야플라이이며, PU은 Pop Up 즉 내야플라이의 약자이다. 쉽게말해 "(그라운드볼-플라이볼)/타석" 이다. Fangraphs의 경우 외야/내야를 구분하지 않고 그냥 FB로 합쳐 놓고 있음을 참고하시기 바란다.) 또한, K%나 BB%, GB%가 상당 부분 서로 영향을 준다고 보고, 위의 QERA 식을 전개한 다음 나오는 모든 변인에 대해 회귀분석을 실시하였다. 예를 들어 K%나 BB% 뿐 아니라, K%*BB%도 중요한 변인이 될 수도 있다고 생각한 것이다.

또한, Eric/Matt은 QERA와 마찬가지로, HR을 변인으로 사용하는 것을 거부하고 대신 GB%를 선택하였다. HR/FB 비율이 투수의 실력이라기보다 운에 의해 많이 좌우된다는 것이 그 이유였다.


이렇게 해서 이들은 새로운 스탯을 개발하게 되었다. 이들이 SIERA를 처음 발표한 것이 미국시간으로 2월 8일이고, 현재의 버전으로 식을 수정한 것이 2월 12일이니, 아주 따끈따끈한 새 스탯인 셈이다.

그런데, 이 스탯의 궁극적인 목표가 아주 재미있다. Eric/Matt의 원문(SIERA 시리즈 중 네 번째 글)을 보자.

To be blunt, our goal was to beat everyone at predicting park-adjusted ERA in the following season, regardless of HR/FB treatment, and beat everyone but FIP and tRA in terms of same-year predictive value.


SIERA의 궁극적 목적은 특정 투수의 올 시즌의 데이터를 가지고 그의 내년 ERA(파크팩터 적용)를 가장 정확하게 예측하는 것이며, 같은 시즌의 ERA에 대해서는 FIP와 tRA 다음으로 정확한 예측을 할 수 있는 것이라고 한다...!!! 이것은 스탯을 비교하는 데 있어서 문제가 될 수 있는데, FIP나 tRA는 투수의 내년 ERA가 아니라 투수의 현재 진짜 기량 수준(True Talent)를 나타내기 위해 개발된 스탯이며, 원칙적으로 미래를 예측하기 위해 개발된 스탯은 아니기 때문이다. SIERA와 FIP 혹은 tRA를 아무 전제 없이 그냥 1:1로 대결시키는 것은 공정하지 않을 수도 있다는 이야기가 된다.

Eric/Matt의 생각은, 수비수나 운의 개입 보다 투수 자신의 역량이 매우 크게 작용하는 변인들(K% 등)은 해가 바뀌더라도 각 투수별로 비슷하게 나타날 것이므로, 올해의 데이터를 가지고 내년의 ERA를 맞출 수 있다면, 그것이 해당 투수의 진정한 기량 수준을 가장 잘 표현하는 스탯이라는 것이다. 이런 주장의 문제점에 대해서는 글의 뒷부분에서 다시 언급하기로 하고, 일단은 이러한 SIERA의 개발 목적을 감안하여 계산식과 결과를 살펴보도록 하자.


Eric/Matt이 회귀분석을 통해 얻은 계산식은 아래와 같다.

SIERA = 6.145 – 16.986*(SO/PA) + 11.434*(BB/PA) – 1.858*((GB-FB-PU)/PA) + 7.653*((SO/PA)^2) +/– 6.664*(((GB-FB-PU)/PA)^2) + 10.130*(SO/PA)*((GB-FB-PU)/PA) – 5.195*(BB/PA)*((GB-FB-PU)/PA)

where the +/- term is a negative sign when (GB-FB-PU)/PA is positive and vice versa.


주: BP 사이트에서는 두 가지의 서로 다른 SIERA 계산식을 볼 수 있다. 즉 시리즈의 1편에 나온 식과 5편 및 인트로 페이지에 나온 식이 서로 다른 것이다. 이것은 1편 발표 후 Eric/Matt이 일부 오류를 수정하여 다시 계산했기 때문이다. 앞으로도 또 바뀔 수도 있는데, 이 페이지에 있는 식을 최신 버전으로 보면 된다.

Matt/Eric은 2003년부터 2008년까지의 MLB 데이터를 가지고 스탯 간 비교를 수행하였다. 이들의 계산 결과를 그대로 옮기면 아래와 같다.
Stat    YR-Same YR-Next
SIERA 0.957 1.162
tRA 0.755 1.222
FIP 0.773 1.224
xFIP 1.168 1.319
QERA 1.070 1.248
ERA-Park ---- 1.430
ERA 0.094 1.434

숫자는 RMSE이다. 작을 수록 우수하다는 의미가 된다.

YR-Same은 같은 해의 파크팩터 적용 ERA를 예측하는 데 얼마나 우수한가를 나타낸다. 예를 들어 2005년의 SIERA로 2005년의 ERA를 맞춰 보려고 할 때의 에러 수준인 것이다. tRA와 FIP가 역시 뛰어난 성적을 보이고 있음을 알 수 있다. xFIP가 성적이 안좋은 것이 매우 의외이다.

YR-Next는 올해의 스탯을 가지고 내년의 파크팩터 적용 ERA를 예측하는 데 얼마나 우수한가를 나타낸다. SIERA가 1위를 차지했음을 알 수 있다. (비록 SIERA의 RMSE 1.162와 FIP의 1.224는 그다지 큰 차이가 아니지만 말이다.) 이렇게 보면 Eric/Matt은 당초의 목적을 달성한 것으로 보인다...!!

과연 그럴까...?

SIERA가 발표된 이후, 여러 세이버메트릭스 커뮤니티에서는 열띤 토론과 검토가 이어졌다. 그 중에서도 특히 주목할 만한 것은, 사실상 현대 세이버메트릭스의 최전방이라고 볼 수 있는 Tom Tango의 inside the book 블로그에서 벌어진 토론이다. 개인적으로는 거의 100개에 달하는 댓글을 통해 벌어진 이 온라인 토론을 매우 흥미진진하게 읽었는데... 혹 위의 링크에 가서 이 댓글들을 몽땅 읽고 "정말 재미있다"고 느끼시는 분이 있다면, 당신은 세이버메트릭스 매니아 혹은 Stathead/Stat Nerd로서의 자격이 충분하다. ^^

Eric/Matt은 SIERA가 항상 더 좋은 결과를 낸다고 주장하였으나, Tom Tango의 테스트 결과는 조금 다르다.

2002-09 시즌에 1500 PA 이상을 기록한 투수 중에서 가장 극단적인 그라운드볼 성향의 투수 20명에 대해 계산한 결과는 아래와 같았다.
투수 20명의 실제 ERA 평균 : 4.17
SIERA 평균 : 4.16
FIP 평균 : 4.14
이정도면 거의 비긴 것이다.

샘플을 "가장 볼넷을 적게 내준 투수 20명"으로 바꿔서 다시 계산해 보았다.
투수 20명의 실제 ERA 평균 : 3.95
SIERA 평균 : 3.98
FIP 평균 : 3.93
이것도 거의 비긴 것이다.

그럼 그라운드볼 + 적은 볼넷의 경우는? Tom Tango는 GB와 BB 분야에서 모두 평균에서 1 표준편차 이상 우수한 투수 9명에 대해 계산을 수행하였다.
9명의 ERA 평균 : 3.82
SIERA 평균 : 4.12
FIP 평균 : 3.94
여기서는 FIP의 승리이다.

Matt Swartz는 이에 대해 "High GB/High BB" 투수에 대해서는 SIERA가 더 정확하고, "High GB/Low BB" 투수에 대해서는 FIP가 더 정확한 것이 맞다고 대답하고 있다. Matt Swartz가 주장하는 SIERA의 강점은, 특히 그라운드볼과 볼넷이 모두 많은 투수의 경우, 볼넷으로 내보낸 주자를 병살 처리할 수 있기 때문에 FIP나 다른 스탯이 생각하는 것보다 ERA가 낮게 나타나고, SIERA는 이러한 특징을 잘 잡아낼 수 있다는 것이다.


어쨌거나... SIERA 및 위의 테스트에 대한 개인적인 의문점을 몇 가지 적어 보도록 하겠다.


1. Tom Tango도 지적한 부분인데... 위의 테스트에서 Year-to Year 부분을 시즌별로 나눠서 보면 아래와 같다. (이 Matt Swartz의 코멘트는 시리즈 4의 댓글에서 볼 수 있다. 독자의 질문에 대답하여 올린 것이다.)
BP staff member Matt Swartz
BP staff
(24824)

Sure. If that helps, I'll put it here in the comments--

Next-year ERA for
03-04, 04-05, 05-06, 06-07, 07-08, 08-09

SIERA 1.107 1.141 1.179 1.186 1.107 1.248
QERA 1.237 1.237 1.219 1.277 1.206 1.316
xFIP 1.284 1.403 1.211 1.404 1.287 1.311
FIP 1.120 1.230 1.298 1.236 1.170 1.283
tRA 1.162 1.202 1.273 1.216 1.171 1.307
ERA_pk 1.391 1.388 1.488 1.429 1.390 1.493


As you can see, it's ahead every time and offers a solid improvement if you compare the difference between the other estimators and regular ERA_pk to the difference between the other estimators and SIERA.

SIERA의 RMSE를 보면 흥미로운 부분을 발견할 수 있는데, 03-04에서 07-08까지는 RMSE가 1.107에서 1.186 사이에서 움직이다가, 08-09 시즌에서는 1.248로 이탈하는 것이다. 이는 SIERA가 2003년부터 2008년까지의 MLB 데이터를 가지고 만들어진 스탯임을 극명하게 반영하는 결과라고 하겠다. 이것이 일시적인 이탈인지, 아니면 앞으로 더욱 오차가 커질지는 몇 시즌을 더 두고 보아야 할 것 같다. 하지만, 분석 대상이 되는 시기가 바뀌어서 표본이 바뀌게 되면 오차가 커질 수 있다는 것은, 철저하게 회귀분석에 기반한 SIERA와 같은 스탯이 태생적으로 가지게 되는 약점이다.

FIP의 경우 1.12에서 1.298 사이에서 움직이고 있는데, 08-09년의 경우에도 이 범위 안에 들어 있으며, xFIP도 비슷한 양상을 보인다. 한편, QERA나 tRA의 경우는 SIERA처럼 08-09년에 약간 예외적인 모습을 보이고 있는데, 역시 SIERA와 비슷한 시기의 데이터에 최적화된 스탯이 아닌가 의심을 해 볼 수 있는 부분이 되겠다.


2. 비교 자체가 공정하지 않은 부분이 있다. SIERA는 처음부터 파크팩터 적용 ERA(Park-adjusted ERA)의 예측을 목표로 하여 이듬해의 파크팩터 적용 ERA를 가지고 각 변인에 대해 회귀분석을 실시하였다. 반면, FIP나 xFIP는 파크팩터가 전혀 고려되지 않은 스탯이다. 이들을 서로 비교하면 당연히 파크팩터 적용 상황에 최적화된 SIERA가 가장 우수하게 나올 수밖에 없다. 개인적으로는 FIP에 파크팩터를 적용해서 좀 더 공정한 환경을 만들어서 동일한 테스트를 수행해 보고 싶은데, 혹 실제로 테스트를 하게 되면 별도로 포스팅을 하도록 하겠다.


3. 내년 시즌의 파크팩터 적용 ERA가 과연 투수의 진짜 능력을 보여주는 가장 좋은 지표인지에 대한 의문이다. ERA는 늘 강조하다시피 투수와 수비수들이 함께 만들어내는 팀 기록이다. 순수한 투수 스탯이라고 보기가 어려운 것이다. Eric/Matt이 이런 점을 모를 리는 없다고 생각하는데, 그럼에도 불구하고 ERA를 다시 궁극적인 지표로 보고 ERA를 맞추는 것을 목표로 하여 스탯을 개발한 것은 이해가 잘 되지 않는다. 정말 이게 최선인 것일까? 올해의 ERA가 수비수의 실력이나 운에 의해 왜곡되어 있는 것이라면, 내년의 ERA 역시 마찬가지 아닐까?


4. SIERA가 맞추고자 하는 목표가 올해가 아니라 "내년" 시즌의 파크팩터 적용 ERA라는 점이다. 올해의 기록을 가지고 내년 시즌의 ERA을 맞추고자 한다면, 여기에는 내년의 퍼포먼스에 대한 예상치가 포함되게 된다. 그렇다면 선수의 나이에 대한 고려, 즉 Aging Curve를 포함시켜야 하는 것이 아닌가? 현재의 계산식은 모든 투수들이 1년 동안 똑같은 수준으로 나이를 먹는 것처럼 취급하고 있다. 30세의 투수가 올 시즌과 내년 시즌에 기록하는 ERA와, 40세의 투수가 올 시즌과 내년 시즌에 기록하는 ERA는 전혀 다른 것이 아닐까? 내가 위에서 언급한 대로 직접 SIERA에 대해 테스트를 수행한다면(그럴 시간이 된다면...), 나이가 다른 투수들 간의 비교도 해 보고자 한다.

궁극의 목적이 내년 ERA라는 점에서, SIERA는 FIP나 tRA보다는 CHONE이나 ZiPS와 같은 퍼포먼스 예측 시스템과 대결을 붙이는 것이 더 타당할지도 모른다.


5. 마지막으로, Eric/Matt의 테스트에서 xFIP가 상당히 안좋은 결과를 낸 부분이다. 이것은 매우 의외인데, 작년에 역시 BP 필진이기도 한 Colin Wyers가 The Hardball Times에 기고한 글에서, xFIP는 ERA를 예측하는 데 있어 FIP보다도 우수한 스탯으로 나타났었기 때문이다. 물론 Wyers의 테스트 방법은 시즌을 반으로 나누어 짝수 일의 등판 스탯으로부터 홀수 일의 ERA를 얼마나 잘 예측하는지를 살펴본 것으로 Eric/Matt과는 약간 다르지만, 그렇다고 해서 이렇게 정반대의 결과가 나올 수는 없다고 생각한다. 이러한 현상은 Colin Wyers 본인도 황당하게 느끼고 있는데, 아직 원인 규명이 되지 않은 듯하다.



개인적으로는 SIERA라는 새로운 스탯의 출현도 인상적이었지만, FIP의 우수성에 다시한번 감탄하는 계기가 되었다. FIP는 DIPS이론을 가장 간략하게 표현한 스탯으로, 사실 간단한 계산과 ERA Scale로의 변환을 위해 정확도를 약간 희생시킨 것이다. 그럼에도 불구하고, "다음 시즌의 파크팩터 적용 ERA"라는 적지에서의 원정 경기에서도 위에서 보는 바와 같이 해당 조건에 완전히 특화된 SIERA와의 대결에서 거의 밀리지 않고 대등한 결과를 내놓고 있다. FIP가 인플레이된 타구를 모두 제외하는 것에 대하여 많은 분들이 "투수도 BABIP를 분명히 일정부분 제어하므로, FIP는 잘못된 스탯이다"라고 주장하시는데, 이분들에게 이러한 테스트 결과를 보여 드리고 싶다. SIERA는 그라운드볼 비율을 매우 중요한 요소로 간주하여 계산하므로, 인플레이된 공에 대한 투수의 제어 능력을 인정하는 스탯이다. 그럼에도 불구하고, 인플레이된 공을 통째로 제외시킨 FIP가 똑같이 우수한 결과물을 내놓고 있는 것이다. 그것도 훨씬 간단한 계산식으로 말이다...!!!!!  이정도면 FIP를 믿고 사용해도 되지 않을런지???

물론, 투수의 퍼포먼스를 절대적으로 평가할 수 있는 단 하나의 스탯 같은 것은 없다. 이전 포스팅들에서 보여 드린 바와 같이, FIP와 xFIP, tRA, tRA* 등은 제각기 장단점을 가지고 있었고, 이는 SIERA도 마찬가지이다. 볼넷을 많이 내주는 투수들에게 상대적으로 정확한 반면, 볼넷을 적게 내주는 투수들의 경우는 이와 반대의 현상이 나타나는 것이다. Matt Swartz가 Tom Tango와의 토론 거의 끄트머리에서 남긴 댓글을 보면서 마무리하도록 하자.

Will doing a regression miss some things?  Absolutely. Will doing linear weights miss some things?  Absolutely. Will they miss different things?  Absolutely.  So let’s continue to do both.  If I told you only that a pitcher had a FIP of 4.00 and a SIERA of 3.50, and then I said you had to guess if a pitcher had an ERA above or below 4.00?  I hope you would guess below.  If I then asked if you to guess whether he had an ERA above or below 3.50, I would hope you would guess above.

결국 SIERA나 FIP나 각각의 장단점이 있으니 둘 다 잘 활용하자는 이야기이다. 결론이 너무 싱거운가? 애초에 단 하나의 절대적인 답을 바라는 것 자체가 무리이다. 세이버메트릭스는 진리 자체가 아니다. 그냥 조금이라도 진실에 가까이 다가가 보고자 하는 소박한 바램이 통계적인 기법을 타고 나타나는 모습일 뿐이다. 그것도 Tom Tango의 블로그에서 벌어진 난상토론과 같이, 일방적인 도그마가 아니라 많은 사람들이 참여하여 토론을 통해 풀어 나가는 민주적인 세계이다. 당장 답을 알 수 없고, 어디에나 오차가 있다고 하더라도, 진실을 조금이나마 알고 싶어하는 이러한 바램 자체가 잘못되어 있는 것은 아니지 않은가? 아니, 인간은 원래부터 이런 존재이지 않은가??


PS. Fantasy Baseball을 하시는 분들은 이러한 스탯의 특성을 잘 활용하면 도움이 될 것이다. 시즌 전에 드래프트를 할 때에는 직전 시즌의 SIERA를 바탕으로 투수를 선택하고, 시즌 중에 트레이드나 웨이버 픽업을 할 때에는 현 시즌의 FIP를 참고하는 전략이 어떨지?


Today's Music : Sheryl Crow - Always on Your Side (ft. Sting) (Official MV)



듣는 이의 심금을 깊이 울리는 명곡. Sting과의 듀엣 버전도 좋고 Sheryl Crow 혼자 부른 앨범의 버전도 좋다.