連《精準預測》作者也預測失準了!為什麼各家美國總統大選民調都失準了?

作者 | 發布日期 2016 年 11 月 16 日 18:58 | 分類 社群
ElectoralCollege2016.svg

民意調查是打選戰團隊為尋找民意的利器,而近年來資料科學的興盛,像是歐巴馬的競選團隊善用資料贏得總統大選。但在這一次美國總統大選,卻讓眾多民調組織疊破眼睛,從暢銷書作者到新聞媒體紛紛預測失準。到底發生什麼事情呢?而川普團隊在自身預測會落選情況下,又怎麼成功在一片看衰聲下贏得選舉?




綜合各家表現,紐約時報 Upshot、CNN 等,或是《精準預測》作者網站 FiveThirtyEight,和普林斯頓 Election Consortium 都槓龜。到底這次選舉有什麼特別之處,讓眾位專家紛紛判斷錯誤?而川普團隊本身自己又怎麼看他們分析的資料呢?

2016 年美國總統大選充滿口水戰,許多美國選民懷著對對手陣營候選人的恨意而投票。競選過程中也少談政見,表示過往的歷史模式往往難以套用到這次選戰。不過這不表示資料科學無效,而是使用資料的人解讀資料失敗了。由於總統大選每四年舉行一次,需要相當長的時間才能驗證建構的模型是否正確,而且往往要失誤才能看出問題。

資料科學起初從電子商務開始,購物網站常見的推薦購買選項。後來資料科學應用的範圍擴散到其他領域,像是輿情分析,醫療等。原先資料科學能發揮的地方,在選舉預測就派不上用場了。購物有成千上萬筆消費記錄能參考建構模型,但換到選舉能依賴的資料就不多。而且這些資料往往也有偏差。

 

更細緻的模型建立讓結果更貼近最終結果

不過不是每一家媒體都預測失準,洛杉磯時報與加州大學舊金山分校 Dornsife 學院合作的團隊就在選前常常算出川普領先的狀況,而最後預測川普當選,依賴更細微的變因建構模型。洛杉磯時報華盛頓分部的 David Lauter 就,他們依據更為細緻的選項來建構模型,其中一個變因是依據百分為尺度,詢問這次選舉去投票的機率多高。而有較高傾向投票的人,其選擇也會加權處理。

IBD/TIPP 的民調做出來的結果也是川普當選。他們做了什麼呢?他們打民調電話抽樣更多手機用戶。

 

川普團隊的見解,覺得也不會贏但仍努力打下去

川普的資料團隊以結果來說做了相當好的工作,即便他們自己做的數據顯示川普是輸的。選舉前三週的 10/18,川普陣營內部的選舉模擬器「Battleground Optimizer Path to Victory」顯示川普有 7.8% 的機率能贏,在關鍵的州川普被判斷落後,特別是佛羅里達。但值得留意是是川普落後的幅度並不大。

川普團隊努力找出近年來飽受經濟不好的鐵銹地帶選民,用經濟議題打選舉。另外還吸引對既有體制不滿的人投給他,希拉蕊的電郵門事件加速這些選票的轉移。最後就如我們看到的結果,以相當接近的票數贏得一些關鍵州的勝利。

 

模型出錯的可能原因

不少統計、數據背景的人對這次選舉預測失準狀況發表意見,像是耶魯大學生物資訊中心研究科學家 Pradeep Mutalik 博士說:「這些模型過強調準確性了。」他計算媒體倚賴的投票模型失準程度達到 15~20%。

Google、臉書、Amazon 這些矽谷公司的成功,讓不少人樂觀的認為 big data 能解決一切。演算法,但往往缺乏背景知識而做出很離譜的決定。像是前陣子臉書的演算法判斷越戰經典照片,躲開燒夷彈攻擊的女孩,被臉書認定是兒童色情圖片,而被不少人批評。微軟的 Tye 聊天機器人學會種族歧視的話語,很快被迫停止運作。Google Flu Trend 依據搜尋數量預測流感流行狀況,最初預測相當準,到後來數值嚴重高估。

如果沒有認清資料有其限制,並且可能誤信有瑕疵的假設,將會建出有問題的模型,澳洲資料科學和統計學家 Anthony Goldbloom 這麼說。MIT 史隆商學院教授 Erik Brynjolfsson :「資料科學其實不是要給你答案,而是給你機率的科學。」因此統計學家或資料科學家大半都接受這次總統選舉結果,因為就是有可能當選可能性低的人當選。

對於民調團隊來說,這次美國總統大選可是很難受。像是《精確預測》作者被不少人包括本篇文章嘲笑,但如同前面提到只有出錯時才知道問題出在那裡,才有可能修正模型。

儘管大部分民調這次選舉表現不好,其實這不表示 big data 或是資料科學是失敗的,而是不好的資料,像是小量偏差的資料,有問題的演算法、和人類的偏見。民調、統計還是所謂資料科學,都是機率,意味事情沒發生前,都有可能往另一個方向走。

(首圖來源:By Gage (2012 Electoral College map) [CC BY-SA 4.0], via Wikimedia Commons)

 

發表迴響