[세이버메트릭스] 스탯은 얼마나 믿을 수 있는가: SSS(Small Sample Size)의 문제
Sabermetrics_Stats 2010. 9. 16. 12:25 |참으로 오래간만의 세이버메트릭스 관련 포스팅이다.
Cardinals가 시즌 막판에 마구 삽을 푸면서 세이버메트릭스 포스팅을 할 시간을 주고 있다. -_-;;
작년 한국시리즈 때였던 것 같다.
퇴근하면서 PMP로 중계방송을 보는데, 어떤 타자(이름이 기억나지 않음)가 안타를 치고 나가자, 해설위원은 다음과 같은 해설을 하였다. "아, 역시 A 선수가 B 투수에게 강하네요. A 선수 정규시즌에서 B 투수에게 7타수 4안타로 아주 강했거든요."
그 말을 듣는 순간, 이 글을 써야 겠다는 생각을 했었다. 그로부터 거의 1년이 지나서야 글을 쓰게 된다는 것은... 아기가 태어나면 삶이 어떻게 바뀌는지를 잘 보여주는 것이다. ㅎㅎㅎ
특정 투수와 특정 타자의 대결 기록, 즉 Matchup data는 무척 흔히 인용되는 스탯이다. 위와 같이, 이전에 A 타자가 B 투수에게 7타수 4안타를 기록했었다면, 우리는 아마도 다음 대결에서 A타자가 안타를 칠 확률이 매우 높다고 생각하게 된다. 정말 그럴까??
확률에 관한 세상에서 가장 진부한 예를 들어 보겠다. 동전을 던져서 앞면이 나올 확률과 뒷면이 나올 확률은 1/2로 같다고 하면, 동전을 2회 던졌을 때 앞면 한 번, 뒷면 한 번 나올 확률이 당연히 가장 높다. 하지만, 그냥 앞면만 두 번 나올 확률도 1/2 * 1/2 = 0.25 로 상당히 높은 것이 사실이다. 동전을 4회 던졌을때 모두 앞면이 나올 확률은 (1/2)^4 = 1/16 = 0.0625 로, 아까보다는 제법 낮아졌지만 여전히 있음직한 확률이다. 동전 4회 던지기를 10000번 하면 아마도 625번 쯤은 앞면만 4번 나오는 경우가 될 것이라는 이야기이니 말이다. 그럼 동전을 8회 던졌을 때 모두 앞면이 나올 확률은? (1/2)^8 = 0.0039 로, 0.39%이니 매우 작기는 해도 여전히 불가능한 것은 아니다. 즉, 앞면과 뒷면이 완벽하게 같은 멀쩡한 동전이라고 해도, 여전히 8회 연속으로 앞면만 나오는 등의 이상현상이 얼마든지 발생할 수 있다는 것이다.
그런데, 자꾸만 이상현상이 발생하는 경우, 애초에 동전이 이상한 경우를 생각해 볼 수도 있다. 알고보면 동전 자체가 찌그러져 있어서 한쪽 면만 계속 나올 수도 있는 것이다. 동전을 8번 던져 8번 모두 앞면이 나왔을 때, 이것은 단지 멀쩡한 동전이 어쩌다 한 번 보여주는 이상현상일 수도 있고, 찌그러진 동전이 일상적으로 보여주는 현상일 수도 있는 것이다.
야구의 스탯도 마찬가지이다. 어떤 타자가 작년과 재작년에 600 PA에서 홈런을 각각 15개씩 쳤는데 올해 갑자기 30개를 쳤다고 하면, 이것은 해당 타자가 오프시즌 동안 웨이트를 열심히 하여 근육을 늘린 결과 장타력이 실제로 향상된 것일 수도 있고, 단지 운이 좋아서 발생한 뽀록일 수도 있으며, 둘 다 해당될 수도 있는 것이다.
우리는 학교에서 배운 대로, 그리고 경험적으로, 이러한 이상현상은 모수 즉 Sample Size가 커질 수록 줄어든다는 것을 알고 있다. 동전을 2~3회 던지면 무슨 일이든 일어날 수 있겠지만, 동전은 100만 번 던지면 앞면이 나오는 횟수는 아마도 50만번에 가까울 것이고, 동전을 1억 번 던지면 더욱 더 평균에 가까워 질 것이라는 것이다.
어떤 특이한 현상, 예를 들어 어떤 타자의 볼넷 비율이 전체 타석의 30%로 매우 높은 것을 관찰했을 때, 이것이 10 PA 중 볼넷 세 번을 얻은 것과 같이 매우 작은 샘플사이즈에 근거한 것이라면, 그냥 일반적으로 흔히 발생할 수 있는 이상현상일 가능성이 훨씬 높을 것이다. 하지만, 이 타자가 여러 시즌을 뛰어서 2000 PA를 기록했는데 이 중에서 600번의 볼넷을 얻은 것이라면, 이것은 이 타자가 볼넷을 아주 잘 고르는 특이한 능력을 보유하고 있어서 그러한 능력이 발현되고 있는 것일 확률이 훨씬 높아진다.
그렇다면, 얼마나 모수가 커졌을 때 우리가 그것을 "뽀록"이 아닌 "능력"으로 인정할 수 있을까?
인터넷에서 활발한 활동을 벌여 온 세이버리스트(Tom Tango는 Sabermetrician이라는 단어 대신 Saberist를 사용할 것을 제안한 바 있다. 나는 Tango 빠 이므로 그의 제안을 그대로 따르기로 하겠다. ㅎㅎ )인 Pizza Cutter는 실제 데이터를 바탕으로 r=.70 이 상을 도출할 수 있는 모수를 찾아 보았다. 그가 r=.70을 기준으로 삼은 이유는 사회과학에서 이론의 설명력을 판단할 때 일반적으로 이 정도의 correlation을 기준으로 삼고 있으며, 또한 r=.70인 경우 r^2=.49가 되므로, r=.70보다 크다는 것은 상관관계가 50% 이상이라는 의미가 되어 어느 정도 객관적인 설명력이 있다고 생각되기 때문이다.
Pizza Cutter의 연구 결과는 다음과 같다.
(원문: 타자 기록, 투수 기록)
왜 swing%는 50 PA만 있어도 충분한데 HR/FB는 300 PA나 필요할까? 다음과 같이 간단히 생각해 볼 수 있다. swing%는 타자가 본 투구 수를 분모로 한다. 1 PA에서 보통 3~4개의 공을 보게 되므로, 50 PA에서 150~200 정도의 모수를 얻게 된다. 반면, HR/FB의 경우 타자가 친 플라이볼의 갯수를 분모로 하므로, 타자의 contract%를 80% 정도라고 하고 FB%를 40%라고 하면 300*0.8*0.4 = 96 으로 오히려 적은 모수를 얻게 되는 것이다.
또한 여기에는 단순히 모수의 갯수 뿐 아니라, 해당 스탯에 얼마나 많은 선수의 능력 이외의 외생변수들이 개입하는지가 중요하게 작용한다. Pizza Cutter는 750 PA까지 분석을 수행했는데, 타자의 타율이나 BABIP와 같은 경우 750 PA까지 높여도 여전히 r값이 0.70을 밑돌았다. 즉, 750 PA 정도의 샘플을 가지고는 타율에 대해 논하기가 어렵다는 것이다. 메이저리그에서 1년 내내 주전으로 뛰어도 700 PA를 넘기기가 쉽지 않으므로, 한 시즌의 타율을 가지고 다음 시즌의 타율을 예측하는 것은 그다지 신뢰하기 어렵다는 이야기가 된다...!!! 이는 그만큼 타율이나 BABIP가 타자의 능력 이외의 다른 외생변수(상대 수비수의 능력 등)의 영향을 많이 받기 때문이다. 참고로, 신뢰할 만한 수준의 타율을 얻기 위해서는 1,000 PA 이상의 데이터가 필요한 것으로 알려져 있다. 3,000 PA의 커리어 데이터에서 3할의 타율을 가진 타자가 있다면, 그는 진짜로 3할 타율을 칠 능력을 가지고 있었을 확률이 높다고 할 수 있겠지만, 작년 한 시즌 650 PA에서 3할 타율을 기록했다고 해서 그가 3할 타자라고 말하기는 조금 어렵다는 의미이다. 또한, 좌투수/우투수 상대 기록을 비교하는 플래툰 스플릿의 경우 통계적으로 설득력을 갖기 위해서는 무려 2,000 PA 이상의 기록이 필요하다.
응용을 해 보자. 휴식 및 부상으로 인한 결장을 감안하여 메이저리그 풀시즌을 650 PA라고 보면, 한 달에 대략 100 PA + 알파 정도를 얻게 될 것이다. 작년, 재작년에 비해 시즌 초인 4월달에 갑자기 컨택 능력이 확 늘어난 타자가 있다면, 이 타자는 남은 시즌 내내 비슷한 모습을 보일 확률이 높다. Contract%는 100 PA를 넘으면 통계적으로 설명력을 갖게 되기 때문이다. 하지만, 어떤 타자가 4월에 평소에 비해 2배 이상 많은 홈런을 쳤다고 해서, 앞으로도 시즌 내내 쭈욱 그럴 것이라고 기대를 하기는 어렵다. 홈런 비율이 설명력을 가지기 위해서는 적어도 300 PA가 필요하기 때문이다.
다시 처음으로 돌아가서... 타자 A가 정규시즌에 투수 B에게 7타수 4안타를 기록했다고 해서 포스트시즌에서 B 투수를 상대로 안타를 잘 칠 것이라는 기대를 할 수 있는가? 이미 답은 위에 다 나와 있다. 타자의 타율은 750 PA를 가지고도 통계적으로 의미있는 예측을 하기가 어려운데, 7 PA는 거의 아무런 의미도 없는 것이나 마찬가지이다. 특히 중요한 순간에 대타를 기용하고자 하는 감독의 입장이라면, matchup data 같은 것은 완전히 무시하고 현재 벤치에 앉아있는 타자들 중 가장 뛰어난 타자를 무조건 선택하는 것이 정답일 것이다.
P.S. 그럼에도 불구하고, 위와 같은 해설이 나쁘다고 생각하지는 않는다. 오히려 해설위원은 팬들이 야구를 더 재미있게 볼 수 있도록 가능한 한 많은 정보를 제공하는 것이 좋다고 본다. 이전에 7타수 4안타였는데 이번에는 안타를 칠까 못칠까... 라는 생각을 하면서 타자와 투수의 승부를 지켜보면 좀 더 재미있지 않은가? 우리는 팬이다. 팬은 야구를 즐기면 된다. 다만 말씀드리고 싶은 것은, 재미있게 즐기시되 이런 통계적으로 무의미한 데이터를 너무 진지하게 의지하지는 마시라는 것이다.
Today's Music : Elton John - Sweet Painted Lady (Live 1976)
이곡은 Yellow Brick Road 앨범에 있는 숨겨진 보석 같은 곡인데, Elton John 본인도 좀처럼 콘서트에서 부르지 않던 곡으로, 엄청난 레어 영상이다. 화질은 구리지만 음악과 퍼포먼스는 A+ 이다.
Elton John은 이미 셀 수도 없이 많은 히트곡들(30년 연속 빌보드 TOP 40 진입이라는 전무후무한 대기록을 가지고 있다)을 발표하여, 모르는 사람이 없을 정도의 엄청난 명성을 누리고 있지만... 그의 70년대 앨범들을 듣고 있노라면, 특히 국내에서, 나는 아직도 그가 저평가되어 있다고 생각한다. 단연코 20세기 최고의 뮤지션 중 한 사람이다.
Cardinals가 시즌 막판에 마구 삽을 푸면서 세이버메트릭스 포스팅을 할 시간을 주고 있다. -_-;;
작년 한국시리즈 때였던 것 같다.
퇴근하면서 PMP로 중계방송을 보는데, 어떤 타자(이름이 기억나지 않음)가 안타를 치고 나가자, 해설위원은 다음과 같은 해설을 하였다. "아, 역시 A 선수가 B 투수에게 강하네요. A 선수 정규시즌에서 B 투수에게 7타수 4안타로 아주 강했거든요."
그 말을 듣는 순간, 이 글을 써야 겠다는 생각을 했었다. 그로부터 거의 1년이 지나서야 글을 쓰게 된다는 것은... 아기가 태어나면 삶이 어떻게 바뀌는지를 잘 보여주는 것이다. ㅎㅎㅎ
특정 투수와 특정 타자의 대결 기록, 즉 Matchup data는 무척 흔히 인용되는 스탯이다. 위와 같이, 이전에 A 타자가 B 투수에게 7타수 4안타를 기록했었다면, 우리는 아마도 다음 대결에서 A타자가 안타를 칠 확률이 매우 높다고 생각하게 된다. 정말 그럴까??
확률에 관한 세상에서 가장 진부한 예를 들어 보겠다. 동전을 던져서 앞면이 나올 확률과 뒷면이 나올 확률은 1/2로 같다고 하면, 동전을 2회 던졌을 때 앞면 한 번, 뒷면 한 번 나올 확률이 당연히 가장 높다. 하지만, 그냥 앞면만 두 번 나올 확률도 1/2 * 1/2 = 0.25 로 상당히 높은 것이 사실이다. 동전을 4회 던졌을때 모두 앞면이 나올 확률은 (1/2)^4 = 1/16 = 0.0625 로, 아까보다는 제법 낮아졌지만 여전히 있음직한 확률이다. 동전 4회 던지기를 10000번 하면 아마도 625번 쯤은 앞면만 4번 나오는 경우가 될 것이라는 이야기이니 말이다. 그럼 동전을 8회 던졌을 때 모두 앞면이 나올 확률은? (1/2)^8 = 0.0039 로, 0.39%이니 매우 작기는 해도 여전히 불가능한 것은 아니다. 즉, 앞면과 뒷면이 완벽하게 같은 멀쩡한 동전이라고 해도, 여전히 8회 연속으로 앞면만 나오는 등의 이상현상이 얼마든지 발생할 수 있다는 것이다.
그런데, 자꾸만 이상현상이 발생하는 경우, 애초에 동전이 이상한 경우를 생각해 볼 수도 있다. 알고보면 동전 자체가 찌그러져 있어서 한쪽 면만 계속 나올 수도 있는 것이다. 동전을 8번 던져 8번 모두 앞면이 나왔을 때, 이것은 단지 멀쩡한 동전이 어쩌다 한 번 보여주는 이상현상일 수도 있고, 찌그러진 동전이 일상적으로 보여주는 현상일 수도 있는 것이다.
야구의 스탯도 마찬가지이다. 어떤 타자가 작년과 재작년에 600 PA에서 홈런을 각각 15개씩 쳤는데 올해 갑자기 30개를 쳤다고 하면, 이것은 해당 타자가 오프시즌 동안 웨이트를 열심히 하여 근육을 늘린 결과 장타력이 실제로 향상된 것일 수도 있고, 단지 운이 좋아서 발생한 뽀록일 수도 있으며, 둘 다 해당될 수도 있는 것이다.
우리는 학교에서 배운 대로, 그리고 경험적으로, 이러한 이상현상은 모수 즉 Sample Size가 커질 수록 줄어든다는 것을 알고 있다. 동전을 2~3회 던지면 무슨 일이든 일어날 수 있겠지만, 동전은 100만 번 던지면 앞면이 나오는 횟수는 아마도 50만번에 가까울 것이고, 동전을 1억 번 던지면 더욱 더 평균에 가까워 질 것이라는 것이다.
어떤 특이한 현상, 예를 들어 어떤 타자의 볼넷 비율이 전체 타석의 30%로 매우 높은 것을 관찰했을 때, 이것이 10 PA 중 볼넷 세 번을 얻은 것과 같이 매우 작은 샘플사이즈에 근거한 것이라면, 그냥 일반적으로 흔히 발생할 수 있는 이상현상일 가능성이 훨씬 높을 것이다. 하지만, 이 타자가 여러 시즌을 뛰어서 2000 PA를 기록했는데 이 중에서 600번의 볼넷을 얻은 것이라면, 이것은 이 타자가 볼넷을 아주 잘 고르는 특이한 능력을 보유하고 있어서 그러한 능력이 발현되고 있는 것일 확률이 훨씬 높아진다.
그렇다면, 얼마나 모수가 커졌을 때 우리가 그것을 "뽀록"이 아닌 "능력"으로 인정할 수 있을까?
인터넷에서 활발한 활동을 벌여 온 세이버리스트(Tom Tango는 Sabermetrician이라는 단어 대신 Saberist를 사용할 것을 제안한 바 있다. 나는 Tango 빠 이므로 그의 제안을 그대로 따르기로 하겠다. ㅎㅎ )인 Pizza Cutter는 실제 데이터를 바탕으로 r=.70 이 상을 도출할 수 있는 모수를 찾아 보았다. 그가 r=.70을 기준으로 삼은 이유는 사회과학에서 이론의 설명력을 판단할 때 일반적으로 이 정도의 correlation을 기준으로 삼고 있으며, 또한 r=.70인 경우 r^2=.49가 되므로, r=.70보다 크다는 것은 상관관계가 50% 이상이라는 의미가 되어 어느 정도 객관적인 설명력이 있다고 생각되기 때문이다.
Pizza Cutter의 연구 결과는 다음과 같다.
(원문: 타자 기록, 투수 기록)
Offense Statistics:
- 50 PA: Swing%
- 100 PA: Contact Rate
- 150 PA: Strikeout Rate, Line Drive Rate, Pitches/PA
- 200 PA: Walk Rate, Ground Ball Rate, GB/FB
- 250 PA: Fly Ball Rate
- 300 PA: Home Run Rate, HR/FB
- 500 PA: OBP, SLG, OPS, 1B Rate, Popup Rate
- 550 PA: ISO
Pitching Statistics:
- 150 BF – K/PA, grounder rate, line drive rate
- 200 BF – flyball rate, GB/FB
- 500 BF – K/BB, pop up rate
- 550 BF – BB/PA
왜 swing%는 50 PA만 있어도 충분한데 HR/FB는 300 PA나 필요할까? 다음과 같이 간단히 생각해 볼 수 있다. swing%는 타자가 본 투구 수를 분모로 한다. 1 PA에서 보통 3~4개의 공을 보게 되므로, 50 PA에서 150~200 정도의 모수를 얻게 된다. 반면, HR/FB의 경우 타자가 친 플라이볼의 갯수를 분모로 하므로, 타자의 contract%를 80% 정도라고 하고 FB%를 40%라고 하면 300*0.8*0.4 = 96 으로 오히려 적은 모수를 얻게 되는 것이다.
또한 여기에는 단순히 모수의 갯수 뿐 아니라, 해당 스탯에 얼마나 많은 선수의 능력 이외의 외생변수들이 개입하는지가 중요하게 작용한다. Pizza Cutter는 750 PA까지 분석을 수행했는데, 타자의 타율이나 BABIP와 같은 경우 750 PA까지 높여도 여전히 r값이 0.70을 밑돌았다. 즉, 750 PA 정도의 샘플을 가지고는 타율에 대해 논하기가 어렵다는 것이다. 메이저리그에서 1년 내내 주전으로 뛰어도 700 PA를 넘기기가 쉽지 않으므로, 한 시즌의 타율을 가지고 다음 시즌의 타율을 예측하는 것은 그다지 신뢰하기 어렵다는 이야기가 된다...!!! 이는 그만큼 타율이나 BABIP가 타자의 능력 이외의 다른 외생변수(상대 수비수의 능력 등)의 영향을 많이 받기 때문이다. 참고로, 신뢰할 만한 수준의 타율을 얻기 위해서는 1,000 PA 이상의 데이터가 필요한 것으로 알려져 있다. 3,000 PA의 커리어 데이터에서 3할의 타율을 가진 타자가 있다면, 그는 진짜로 3할 타율을 칠 능력을 가지고 있었을 확률이 높다고 할 수 있겠지만, 작년 한 시즌 650 PA에서 3할 타율을 기록했다고 해서 그가 3할 타자라고 말하기는 조금 어렵다는 의미이다. 또한, 좌투수/우투수 상대 기록을 비교하는 플래툰 스플릿의 경우 통계적으로 설득력을 갖기 위해서는 무려 2,000 PA 이상의 기록이 필요하다.
응용을 해 보자. 휴식 및 부상으로 인한 결장을 감안하여 메이저리그 풀시즌을 650 PA라고 보면, 한 달에 대략 100 PA + 알파 정도를 얻게 될 것이다. 작년, 재작년에 비해 시즌 초인 4월달에 갑자기 컨택 능력이 확 늘어난 타자가 있다면, 이 타자는 남은 시즌 내내 비슷한 모습을 보일 확률이 높다. Contract%는 100 PA를 넘으면 통계적으로 설명력을 갖게 되기 때문이다. 하지만, 어떤 타자가 4월에 평소에 비해 2배 이상 많은 홈런을 쳤다고 해서, 앞으로도 시즌 내내 쭈욱 그럴 것이라고 기대를 하기는 어렵다. 홈런 비율이 설명력을 가지기 위해서는 적어도 300 PA가 필요하기 때문이다.
다시 처음으로 돌아가서... 타자 A가 정규시즌에 투수 B에게 7타수 4안타를 기록했다고 해서 포스트시즌에서 B 투수를 상대로 안타를 잘 칠 것이라는 기대를 할 수 있는가? 이미 답은 위에 다 나와 있다. 타자의 타율은 750 PA를 가지고도 통계적으로 의미있는 예측을 하기가 어려운데, 7 PA는 거의 아무런 의미도 없는 것이나 마찬가지이다. 특히 중요한 순간에 대타를 기용하고자 하는 감독의 입장이라면, matchup data 같은 것은 완전히 무시하고 현재 벤치에 앉아있는 타자들 중 가장 뛰어난 타자를 무조건 선택하는 것이 정답일 것이다.
P.S. 그럼에도 불구하고, 위와 같은 해설이 나쁘다고 생각하지는 않는다. 오히려 해설위원은 팬들이 야구를 더 재미있게 볼 수 있도록 가능한 한 많은 정보를 제공하는 것이 좋다고 본다. 이전에 7타수 4안타였는데 이번에는 안타를 칠까 못칠까... 라는 생각을 하면서 타자와 투수의 승부를 지켜보면 좀 더 재미있지 않은가? 우리는 팬이다. 팬은 야구를 즐기면 된다. 다만 말씀드리고 싶은 것은, 재미있게 즐기시되 이런 통계적으로 무의미한 데이터를 너무 진지하게 의지하지는 마시라는 것이다.
Today's Music : Elton John - Sweet Painted Lady (Live 1976)
이곡은 Yellow Brick Road 앨범에 있는 숨겨진 보석 같은 곡인데, Elton John 본인도 좀처럼 콘서트에서 부르지 않던 곡으로, 엄청난 레어 영상이다. 화질은 구리지만 음악과 퍼포먼스는 A+ 이다.
Elton John은 이미 셀 수도 없이 많은 히트곡들(30년 연속 빌보드 TOP 40 진입이라는 전무후무한 대기록을 가지고 있다)을 발표하여, 모르는 사람이 없을 정도의 엄청난 명성을 누리고 있지만... 그의 70년대 앨범들을 듣고 있노라면, 특히 국내에서, 나는 아직도 그가 저평가되어 있다고 생각한다. 단연코 20세기 최고의 뮤지션 중 한 사람이다.
'Sabermetrics_Stats' 카테고리의 다른 글
Theo Epstein 단장 이적의 공정한 대가는? (24) | 2011.10.18 |
---|---|
[세이버메트릭스] Log5 System 및 Pythagorean 승률을 이용한 메이저리그 플레이오프 예측 (7) | 2011.09.30 |
[세이버메트릭스] 그라운드볼의 효과(2) (3) | 2010.03.25 |
[세이버메트릭스] 그라운드볼의 효과(1) (3) | 2010.03.11 |
SIERA(Skill-Interactive ERA) : 새로운 투수 스탯의 탄생 (13) | 2010.02.19 |