從數據分析棒球,看懂內行人的棒球門道

作者 | 發布日期 2018 年 05 月 14 日 7:30 | 分類 Big Data follow us in feedly

棒球在台灣非常盛行,台灣也是少數有自己的職業棒球聯盟的國家。不過棒球也是很複雜的運動,要看懂棒球不難,但要看的懂門道不簡單。想要更深入了解棒球,數據分析會是個好方法。台灣 R 語言社群請來了樞紐棒球的站長簡於閔和卓書賢,來談如何用數據來分析棒球,從中找出更多的樂趣。




棒球統計學又稱為賽伯計量學(Sabermetrics),一般人對這個詞的印象通常來自於電影《魔球》(Moneyball),甚至誤以為電影中由 Brad Pitt 飾演的帥氣男主角最看重的上壘率就是棒球計量學的解答。其實對球團來說,重要的是找出有價值卻被市場忽略的數據。過去由於上壘率不受重視,所以運動家隊才能撿便宜,如今上壘率成為顯學,那就要尋找其他的指標。

現代球隊會這麼在意棒球統計學,是因為背後牽動著價值上百億台幣的球員市場。2017 年美國職棒大聯盟(MLB)的平均薪資超過 400 萬美元,約台幣 1.2 億元。平常人連買菜都會精打細算,更何況是買球員這麼貴的東西,當然要睜大眼睛。買菜靠的是看色澤、摸手感和聞氣味,那買球員靠的就是數據分析,幫忙球團找出砂礫中的珍珠。拜現代科技進步所賜,有了 Statcast 系統這種追蹤工具,可以測出各種以前無法掌握的數據,包括球被擊出的速度、球員跑動的速度、球被接到的機率和球被打出的仰角等等。這些數據的分析可以幫助球團和球迷不受印象所矇蔽,看出一個球員的表現是好是壞。

▲ 兩位數據棒球專頁樞紐棒球的站長,左為卓書賢,右為簡於閔。(Source:科技新報)

棒球很適合用來做數據分析,因為棒球是一項回合制的運動,每場比賽都是由一次又一次獨立的投打對決累加起來的,每次都能做為實驗的樣本。棒球也是一種機率的運動,好的打者和不好的打者打出安打的機率其實只差 10%,因此只看幾場比賽很難分辨到底誰是比較好的球員。不過 MLB 一支球隊每季都要打 162 場比賽,這麼大量的比賽能累積大量的實驗樣本,減少運氣因素在數據分析中所造成的影響。

要學做棒球數據分析,需要有棒球相關的知識、分析能力和處理資料的方法。其中最重要的是棒球相關的知識,才能判斷瞭解數據背後的意義,其次是分析能力,最後才是處理資料的方法,因為多數的數據取得時都已經被處理過了。當三者都具備了,那就可以挑選想分析的棒球數據來著手。好的棒球數據應該要能有效衡量球員的實力,因此儘量使用運氣影響較小的數據,以及容易複製表現的數據。舉例而言,FIP (Fielding Independent Pitching)因為只評估排除守備以外的投球數據,可靠的程度就比常常會被隊友守備拖累的自責失分率(ERA)要高。想要取得棒球的分析數據,可以上 MLB 的官網,或是 Baseball-referenceFanGraphsThe Hardball Times 等棒球數據網站,不只有數據還有相關的文章可以參考。

▲ FanGraphs 是棒球數據分析的常用網站。(SourceFanGraphs

除了比賽本身之外,以數據分析其他場外事件也非常有趣。例如用數據分析入選名人堂的標準,透過安打數、全壘打、勝投和三振等累積數據,以及最有價值球員(MVP)和賽揚獎等個人榮譽來預測一個球員未來會不會進入名人堂。但畢竟進入名人堂是依靠投票,所以這種分析一定會有誤差。有些該入選的球員因為醜聞,或是顛峰期不夠強,抑或職業生涯不夠久,而沒能入選。有些不該入選的球員則因為守備位置特殊,或是對棒球歷史或球隊有特殊貢獻而能夠入選。

雖然數據分析能更了解球員的實力,不過這不代表就不用看球了。這樣除了會喪失看球本身的樂趣,而且會無法注意到球員在比賽中的改變,分析時就會產生誤差而無法解釋。只有觀察比賽時的細節,才能修正對數據的使用模式。不過數據不可能解釋所有的狀況,還是存在著部分限制,像是傷病風險和防守能力,都還是數據分析上的難題。如果對數據棒球分析有興趣,可以關注樞紐棒球的專頁,也可以加入數據棒球學會台灣分會

(首圖來源:達志影像)

延伸閱讀: