Big data 是什麼?《大數據》作者麥爾荀伯格為大家解惑(贈書活動截止))

作者 | 發布日期 2014 年 06 月 12 日 19:00 | 分類 網路
big-data-viktor

遠見天下文化集團,出版《大數據》這本談論 big data 現象的書。2014 年 6 月 12 日上午,請來作者到臺灣演講。這次的講者維多.麥爾荀伯格 (Viktor Mayer-Schönberger),他是大數據 (Big data: a revolution that will transform how we live, work, and think) 一書的作者,也就是從他開始,big data 這個名詞廣為流傳。維多他在牛津大學網路研究所任教,研究領域為網路治理和管制。



維多演講重點摘要

維多先從 Google Flu Trend 開始談,Google 裡的幾位工程師,從 Google 搜尋最常用的 5 千萬的搜尋關鍵字,並與流感有關最常出現的搜尋關鍵字比對,最後成功預測流感的發生。相比之下,衛生當局做的嚴僅預測模形遜色不少,疾管局的資料會延遲二星期之久。

比價是人類的天性,早在 big data 爆紅之前,就有人想辦法從可獲得的資料中,預測價格走勢。例如美國資訊科學家伊茲奧尼 (Oren Etzioni),有一次坐飛機去參加婚禮,出於好奇,問了鄰座乘客票價以及購票時間,結果卻發現那個人明明是最近才買,票價卻是便宜得多,違反早買機票會便宜的通則。他一氣之下決定要從網路挖所有能找到的機票資訊,想辦法預測機票票價走勢。伊茲奧尼將這個計畫取名為「哈姆雷特」,他認為「要買還是不買」的問題貫穿整個計畫——像極了莎翁名劇《哈姆雷特》的經典獨白:to be or not to be,於是伊茲奧尼把這個研究計畫命名為「哈姆雷特」。最後這個計畫擴大為 Farecast 公司,預測的對象從原先的機票,延伸到飯店房價、演唱會票券價格等。

維多也講到其他 big data 資料分析的例子,像是 DNA 定序在時間及金錢花費上大幅減少,讓分析整個基因組變成可能。Walmart、Target 等大型量販店針對顧客資料,分析顧客喜好,推出客制化的優惠券。運用隨處可得的社群網路發言資料,歸納網路族群的主流言論。

big-data-target

不過講了這麼多應用的 big data 例子,維多提醒大家,big data 也有其黑暗應用面,像是由史諾登揭露的 NSA 大規模監視網路言論,甚至與網站合作直接有後門能截取資料,侵害一般人的隱私權。

1984-of-big-data

▲ NSA 的大規模監控網路的言論,big data 技術的發達,反倒讓情報單位活用,讓大家害怕有一天 1984 這本書的情形會發生

面對 Big data,台灣該怎麼做?

在綜合座談上,教育部長蔣偉寧從教育切入,提到臺灣以製造業聞名,該如何配合目前 big data 的趨勢,轉成 data-driven 的經濟體?維多回答,在這個新的時代中,學生要培養對事物的好奇心,因為好奇心是趨動 big data 發展背後的原動力,而教育應該扮演維持學生對事物求知的推手。

新北市長朱立倫提到正在進行的 Smart City,有用到 big data 的概念。一般來說 Smart City 要能做到讓民眾有感,需要搭配物聯網,使用不同感測器記錄累積數據,最後分析後與市民互動。但要達到好的效果,除了以上的工作流程,政府標案規格,是否有具體描述也必須要兼顧。而實際情形是政府往往沒仔細思考到底要什麼,造成標案公司即使有能力,執行出來的成果不盡理想。

big-data-panel▲ Panel 的五位參與者討論 big data

Big data 所衍伸出的問題

維多談到 big data 遇到的困難,就是資料分享。顯而易見不同公司不大會分享資料,但即便是同公司不同部門,其中一個部門有資料,另一個部門有技術能分析,但很難說服有資料的部門分享。有鑑於此,big data 最終不是純技術問題,是文化上,與人的問題。

論壇後有簽書會,但需要領取號碼牌,如果沒拿到就很可惜無法得到作者親筆簽名。這次可以親眼看到作者,聽到作者講述書中的例子,並且看到作者生動活潑的動作示範,手舞足蹈的一邊講一邊做。很可惜時間因素並沒有 Q&A,許多想問的問題無法透過現場的問答解惑,只能等待遠見整理出來,請作者回應後刊載在雜誌上了。

我這邊最大的疑惑,維多一直強調賣資料,但為什麼不是賣資訊或 wisdom?經過處理的 data 變成資訊,而資訊分析後才會變成 wisdom,賣 wisdom 照理說會更好賣才是。擁有資料的人會很小心保護資料,只有少數人有機會真得接觸到 big data,那一般人要怎麼在 big data 領域發揮呢?另外想問維多覺得 data anlytics 的 startup 面臨什麼樣的挑戰。

vickor2▲ 維多唱作具佳,活靈活現的談論書中舉的例子,並且有動作搭配

傳統的資料處理方式,如統計學強調抽樣和因果關係。如今資料量相當大,樣本可說等於母群,傳統統計學的抽樣在數據量大,而且可能隨處可得的情形下,已經不需要特地用抽樣的方式從樣本推測母群。因果關係因 big data 可因應瞬息萬變的狀況,趕緊做出決策,而著重在相關性上面。big data 對於發現現像,做出相對應的決策,而且是快速反應,帶來革命性的影響。未來可以期待 big data 帶來的發展。

big-data-workflow▲ 由於機器演算法的進步,可以由程式找出可能的事件原因

發表迴響