當資料科學遇上棒球,專訪孫玉峰談賽伯計量學

作者 | 發布日期 2017 年 11 月 25 日 12:00 | 分類 Big Data , 軟體、系統 follow us in feedly

擁有高大籃球員身材的孫玉峰現在是雲深創新股份有限公司研發總監,過去曾在中研院研究生醫影像的他,始終對資料科學有莫大的興趣。孫玉峰曾經獲選為微軟最有價值專家(MVP),同時也是台灣 R 語言社群的共同主持人。在 2017 年的台灣人工智慧年會上,他端出了「資料科學如何影響運動產業?認識賽伯計量學」這樣有趣的題目,這一次科技新報有機會請孫玉峰更深入地談談賽伯計量學。




被問到為什麼會開始研究賽伯計量學,足球隊出身的孫玉峰靦腆得笑著說,自己原先不太看棒球的,頂多看看國家隊比賽,是在約莫 5 年前學長的邀請之下玩起了夢幻棒球(Fantasy Baseball),才開始了解美國職棒大聯盟的球員,進而接觸 Baseball-reference 和 FanGraphs 這類棒球數據網站,正式踏入賽伯計量學的領域。

賽伯計量學是什麼?能吃嗎?

賽伯計量學(Sabermetrics)又稱作為棒球統計學,是一項從數據角度分析棒球運動的運動科學,而要討論賽伯計量學就不得不從棒球資料談起。在棒球的古老年代只有紀錄比賽比數和安打數等基本的數據,到了 1858 年才由體育作家 Henry Chadwick 發明了分數盒子(Box score),較完整的紀錄各項比賽數據。有了數據才有可能有後續的資料分析,讓後來的賽伯計量學成為可能,而這一切的起點就是美國職棒大聯盟。

美國職棒大聯盟(Major League Baseball,簡稱 MLB)最早可以追溯到 1871 年國家聯盟成立,後來在 1901 年美國聯盟成立之後,兩邊於 1902 年召開辛辛那提會議協商合併,成為今日 MLB 的雛型。剛開始 MLB 也只有初步的棒球統計,缺乏更進一步的數據分析,直到 1964 年 Earnshaw Cook 發表了 Percentage Baseball 這本書,才讓世人了解用數據分析棒球的潛力。Bill James 則在 1977 年開始撰寫自己第一版的棒球摘要(The Bill James Baseball Abstract),並每年出版直到 1984 年。這一系列的作品透過數據提出許多新的論點,堪稱是讓賽伯計量學破繭而出並走向主流的關鍵,而 Bill James 更是提出賽伯計量學這個名詞的第一人。

▲ 賽伯計量學已經是棒球運動的顯學,甚至成為波士頓大學教授在 Google 辦公室的講題。

MLB 早已「上太空」

經過長久的發展,目前 MLB 已經有專業的數據蒐集者和資料蒐集儀器,精細到每一球從出手到進壘的動態和軌跡都詳細紀錄。除了可以供賽伯計量學分析使用外,動態的軌跡也能做運動力學的方面研究。MLB 主要是採用荷蘭開發的 Trackman 系統,利用三支攝影機做影像定位,追蹤球的移動,可以記錄投球和打擊的軌跡和結果。這套系統原先是設計來抓高爾夫球軌跡的,但現在每個大聯盟的球場都有它的身影,甚至部分小聯盟球場都有。日本只有樂天金鷹和東京巨人主場擁有這套系統,台灣則是台體大棒球隊所在的台中棒球場有安裝。

MLB 在 2015 年開始全面啟用以 Trackman 系統為基礎的 Statcast 系統,蒐集大量的測量數據,可以更進一步了解球場上的狀況。例如以系統即時算出守備時球員的跑動距離,進而推估出該球員的守備範圍,甚至利用球員移動時是否採取最短的路徑來看出球員判斷球落點的準確程度。打擊時系統會記錄球打擊出去的初速和仰角,投球時也會記錄球速和放球點等資料。

▲ Statcast 系統已經掀起了棒球運動的革命。

進階數據看棒球

取得數據之後,賽伯計量學能進一步分析計算出可供參考的進階數據。孫玉峰指出進階數據可以處理部分額外因素的干擾,會比傳統數據更有效的衡量球員。例如在打者數據方面,進階數據場內被安打率(BABIP)是球打進場內形成安打的機率,能夠了解打者是不是純粹因為運氣而影響了打擊表現,就能補足傳統的打擊率會嚴重受到守備狀況和運氣影響的缺點;全壘打比飛球的比率則能了解球員的打擊型態和力量。投手數據則有著 xFip,只考慮全壘打、觸身球、四壞球和三振的數據,因為這些數據不會受到守備因素干擾,能比傳統的自責分率(ERA)更精準地呈現投手控制比賽的能力。

孫玉峰也提醒有時不同的數據公司會對同一個數據有不同的計算方式,像是進階數據中相當重要的 WAR(Wins Avobe Replacement),能夠總和打擊、防守和跑壘各方面的貢獻,但各家公司給予的加權和算法就不一樣,因此會出現同一個數據卻不同數值的狀況。他推荐對棒球進階數據有興趣的讀者可以逛逛 Baseball-referenceFanGraphs 這兩個網站,想要簡單的了解球員和球員狀況的變化都非常實用。

電影「魔球」上映之後引發了一股賽伯計量學的熱潮,也讓觀眾看見棒球場外數據派和球探派的針鋒相對。但孫玉峰認為兩邊不一定要是對立的,而是應該各取所需。就如同人工智慧(AI)不是要取代人類而是幫助人類,數據也不是為了取代人類,而是為了補足人類看不見的盲點。

▲ 電影「魔球」在 2011 年上映時引起了觀眾對賽伯計量學和奧克蘭運動家隊的興趣。

球探的價值除了在於能觀察投球或守備機制等細微的動作外,也能觀察球員在場外的表現和非比賽的行為。球探能藉由對球隊的喜好和隊形的了解,進而針對球技和性格找出適合自家球隊的球員。但球探派很容易憑著印象去評斷球員,而且可能因為球員在球探觀察的場次表現得特別好或不好,就決定球探對球員的判斷。如果有了數據的輔助,就能夠更完整的了解球員,並處理掉極端的數據,降低失準的機率。因此透過球探和數據的相輔相成,才能夠為球隊發揮最大效益。

球到底彈不彈?淺談全壘打暴增的原因

至於受到球迷熱烈討論的「彈力球」問題,孫玉峰則認為可能和打者打擊型態改變有關。MLB 近年來掀起了飛球革命,打者偏好把仰角打高。尤其現在不像過去那麼重視打擊率,只要上壘率夠高就好,追求更多的長打和保送。當越多的打者越往這個方向發展,自然就會造成全壘打數量的增加。

但孫玉峰也表示中華職棒全壘打滿天飛的狀況就比較難判斷,因為這方面的數據中職屬於不公開的內部資料。即使曾經有教授做研究時取得了相關資料,但卻發現內容有明顯的錯誤,或許可信度並不高。他認為如果要找出是不是因為球的彈力係數改變而造成全壘打數量上升,可能可以比較球的飛行距離,是不是在不同季度有明顯的差異。不過實作上因為缺乏這方面的資料,很難真的確認。

▲ 就連 2017 年世界大賽也是全壘打滿天飛,兩隊共打出破紀錄的 25 支全壘打。

何時才能不只在「殺豬公」?

相較於 MLB 近乎黑科技等級的數據系統,中華職棒還被球迷戲稱在「殺豬公」的階段。談到中職的數據發展還需要多久時間才能追上美國,孫玉峰表示不敢肯定。畢竟目前只有一些去過美國訓練的球員和教練有將部分賽伯計量學的觀念帶回台灣,像是富邦悍將隊的總教練葉君璋和中信兄弟隊的球探王金勇。

孫玉峰認為可以用美國的例子向球團或聯盟說明賽伯計量學的價值,才能帶動國內賽伯計量學進一步的發展。例如從經營的角度切入,利用 WAR 去衡量一個球員比平均球員能多帶來多少勝場,而一場勝利可以帶來多少球迷,球迷可以帶來多少門票收入,最終算出一個球員的商業價值和門票收益。藉著對球隊相當重要的門票收入解釋賽伯計量學可以衡量球員的價值,幫助球隊作出適當的交易或開出合理的薪資,讓球團更願意投資資料蒐集的設備。

除了棒球以外孫玉峰也提到其他運動的資料分析,並指出不同運動的特性會影響資料分析的能力。例如相對於棒球而言,籃球運動更容易被少數球員掌控,因此影響比賽的因素就更少。因此籃球發展出一套四因子理論(Four Factors),利用投籃、失誤、籃板球和罰球四個要素建立模型,預測比賽結果。孫玉峰也以自身熱愛的足球為例,和美式的回合制運動不同,足球相較起來可以累積的數據就比較少,只能從一次次的傳導資料去看。過去曾有人研究西班牙甲級足球聯賽豪強巴塞隆納隊的傳球,紀錄傳球的軌跡與其他球隊比較後,發現巴塞隆納隊的傳球模式相當特別,這也是後來聞名全球並幫助西班牙拿下世界盃冠軍的「Tiki-taka」戰術

一起來算數據,看棒球!

如果對賽伯計量學心癢難耐,但又不知從何下手該怎麼辦?實際操作可以從資料和軟體兩方面談起。孫玉峰認為現在要投入這個領域已經比過去容易得多,以前要做分析要首先得下苦功蒐集資料,如今資料取得已經相當容易。他個人推薦以 Lahman’s Baseball Database 作為資料來源,這是一個由運動作家 Sean Lahman 所建立的資料庫,內容包含從大聯盟創立以來保留的所有數據,不只相當完整,而且檔案只有不到 100 MB。

▲ 孫玉峰邀請大家一起加入賽伯計量學的行列!(Source:孫玉峰

目前市面上缺乏供個人使用的專業棒球分析軟體,頂多供球團內部使用。孫玉峰表示其實本身有在寫程式的人就利用自己習慣的程式語言作分析即可,因為 Lahman’s Baseball Database 可以存成想要做分析的格式,所以只要順手就好。孫玉峰自己是使用 R 語言,除了本來就習慣之外,R 語言也有不少現成的統計模型可以用。他也說還是習慣最重要,甚至也可以用 Excel 做分析,只要會寫公式會撈數據就可以了。

不過孫玉峰笑說開始學會棒球數據分析之後開始會對不專業的球評感到不耐煩,很容易就會發現有些球評沒做功課,對球員還停留在既定印象,而沒有透過數據跟上球員最新的狀態。談起台灣民間的賽伯計量學,孫玉峰樂觀看待,認為有逐漸發展的趨勢。他從演講時聽講的人數和提問的層次可以感覺到實際投入賽伯計量學的人數有所成長,未來甚至有機會可以聚集同好舉辦小型的讀書會或黑客松。相信假以時日,台灣的賽伯計量學也能成長茁壯,讓更多人能從數據觀點享受這項迷人的運動。

(首圖來源:Flickr/Intel Free Press CC BY 2.0)

延伸閱讀: