【丰云】17 年一覺大數據,老名詞翻新再炒一輪

作者 | 發布日期 2017 年 06 月 03 日 15:57 | 分類 AI 人工智慧 , Big Data follow us in feedly

台灣政府過去推出許多遠大口號,產業界往往是表面上不敢違逆,私底下傻眼、嘲笑或痛罵,不過,不只政府會不斷創造口號,產業界自己也一樣,全球產業發展史上,多的是無數定義不清、前景不明,連創造者自己都搞不清楚定義的口號名詞,同一個名詞還會不斷改名,重複炮製,產業以外的一般民眾,往往被重複糊弄了好幾次,還汲汲營營的跟著喊,以為有跟上最新口號就是有遠見、有大視野,最慘的則是,連口號都已經過期了十幾年,還傻傻的繼續喊。



近來「大數據」與「滷肉飯」之爭,就是一個這種傻勁的典範,大數據是未來?不,大數據本身就已經是 2000 年出現的名詞,光是「大數據」這 3 個字就已有 17 年歷史,而與大數據相同概念的前身名詞,最早自 1959 年就已經提出,相較之下,台灣知名、時常成為熱門網路討論話題的鬍鬚張滷肉飯,創業於 1960 年,當時還是路邊攤,也就是說,大數據比鬍鬚張滷肉飯還要古老。

事實上,整個數據分析的概念,還可推到更久遠,最起碼從迴歸分析問世就應該開始起算,若是如此,那歷史得要往前推到史上留名的德國數學家高斯的年代,那可是 19 世紀初的 1800 年代,台灣還要等超過一個世紀才會發明滷肉飯(推測台灣滷肉飯是自日本時代改良品種誕生蓬萊米之後才出現,蓬萊米發表於 1926 年)。

高斯雖然與勒壤得開啟了最早的迴歸分析,但當時顯然沒有電腦,一切都是仰賴「人腦智慧」來運算、找出數據的迴歸模型,沒有所謂電腦演算法,所以就把它們只算做是強調電腦運算的大數據的老祖宗。但 1959 年起,如今的大數據概念就已經確實出現了。

十幾年來兩岸炒作大數據議題,只要是經歷超過 20 年的資深資訊業界人士,一聽到大數據的說法,往往反射式的回應:這不就是所謂「機器學習」(Machine Learning)或「資料探勘」(Data Mining)?

的確正是,美國人工智慧先驅亞瑟‧李‧山謬(Arthur Lee Samuel)於 1959 年定義「機器學習」(Machine Learning),就是要發展演算法,讓電腦人工智慧能在並未事先指定特別方向或任務的情況下,從大量資料中找出資料中的關鍵之處或是異常之處,可以逐步學習,並具備預測能力。跟現在的大數據定義大同小異。

機器學習也同時是另一個名詞「深度學習」(Deep Learning)的前身,時間往後推到如今的 2016 年,產業界的運算能力使得機器學習可發揮驚人的水準,其成就表現於 AlphaGo 以「深度學習」擊敗人類圍棋棋士,於是「深度學習」又一時成為當紅的新名詞,其實不過就是過去被遺忘的機器學習。

如今深度學習已經開始應用於許多領域卓然有成,但 1959 年時,人類掌握的運算能力還不足以讓機器學習產生太大的有意義成果,結果口號喊了以後實質上成果有限,到 1960 年代,由於缺乏實績,統計學家嘲笑這種不設定預設假說、只是丟進一堆數據就想分析出成果的想法是異想天開,跟挖爛泥巴沒兩樣,貶稱為「資料釣魚」(data fishing)或「資料挖泥」(data dredging)。

機器學習這個名詞蒙塵,遭扔進爛泥堆,但是電腦科學家的理想不變,到了 1990 年,又發明了新名詞,這次叫「資料探勘」,強調從大量電腦資料中找出關鍵或異常資訊的能力。其實,原本是要叫做「資料庫探勘」(Database Mining),很不幸的是,一家加州聖地牙哥電腦公司 HNC 已經為了其產品「資料庫探勘工作站」(Database Mining Workstation)申請商標,為了避免侵犯 HNC 商標,只好拿掉一個字,改叫資料探勘。同時還有許多其他講法,如「資訊收割」、「資訊發掘」、「知識萃取」等。

資料探勘這個名詞風行了好幾年,也的確有許多應用,譬如在台灣,健保局於健保 IC 卡化後,利用資料探勘,察覺出診所申報的看診情況異常,再針對這些異常資料的診所進行實地檢查,果然發現其中有部分診所有詐騙健保的行逕,這就是一個相當成功的資料探勘應用。但是,一個名詞從 1990 年開始喊,到了 2000 年已經成了 10 歲的老名詞,又感覺不大新潮了。

全球的產業顧問界為了創造新流行,在 2000 年又重新發明一個新名詞,把本來就行之有年、運轉順暢、穩定發展的資料探勘,重新包裝成「大數據」,2001年,日後由顧能(Gartner)購併的市場研究公司麥塔集團(META Group),給了大數據「3V」的定義,強調「巨量、即時、多樣」的資訊經由機器學習處理的應用,其實本質上與過去的機器學習、資料探勘並無二致,日後顧能又基於「3V」小幅修改、擴充對大數據的定義,但大體上沒有太大變動。

台灣常發生資訊落差

也就是說,就算不計入資料探勘、機器學習這些老早就出現的前輩名詞,光是「大數據」本身,就是早在 2000 年提出,已經 17 年之久的老名詞,台灣老早就有相關應用,產業界每天都在運作,隨手舉例,如群創 4 月時結合水利署水情資訊以大數據來節水,不僅產業界,更連政府都老早就懂得拿來抓健保申報異常,早已經是這麼跟滷肉飯一樣稀鬆平常的東西。

若今天是台灣政府辦「滷肉飯節」辦了全台灣第一座「滷肉飯中心」,請來所有有做滷肉飯沾到邊的三百多家台灣餐飲企業(貴州大數據展主要為中國廠商共 325 家),又邀請郭台銘前來吃了一口滷肉飯,有人看到了,就大驚小怪,說滷肉飯是人類的未來,滷肉飯要征服世界,連郭台銘都來吃了一口,台灣要成為滷肉飯中心了!大多數人應該只會覺得是鄉巴佬鬧笑話。但這種笑話,在台灣卻還能刊上財經雜誌網站。

事實上,在 5 月底到 6 月初,全球真正最重要的產業展會,是台灣的「台北國際電腦展」(COMPUTEX 2017),雖然每年產業界都愛之深責之切,對台北電腦展有諸多批評與奚落,以硬體為主的傳統,也使得台北國際電腦展隨著全球電腦產業有所衰退,但是即使如此,不可否認,台北國際電腦展仍是每年三大電腦展之一,在全球產業仍具有重要地位,去年參展廠商達 30 國 1,600 多家,而在人工智慧概念興起下,2017 年的台北國際電腦展更重新有了看頭。

如今領頭衝刺人工智慧產業鏈的繪圖晶片大廠輝達(NVIDIA),在 5 月 30 日台北國際電腦展舉辦人工智慧論壇 (AI Forum),由執行長暨創辦人黃仁勳親自發表主題演說,演講中宣布輝達正式啟動全球頂尖 ODM 夥伴合作計畫,包括鴻海、英業達、廣達以及緯創等國內伺服器設計生產大廠都將成為合作夥伴,加速因應人工智慧雲端運算的各種需求。不僅輝達的動向是目前全球產業界關注的焦點,台北電腦展上還有安謀(ARM)、IBM、英特爾(Intel)、亞馬遜(Amazon)、沛星(Appier)等產業領導大廠於各論壇發表對人工智慧產業發展的見解。

若要提到所謂的大數據、比拚「郭台銘因素」,每年鴻海當然參展台北國際電腦展,2017 年台北國際電腦展首日,鴻海集團派出副總裁呂芳銘在 CPX 論壇論壇上以「智慧製造在數據時代面臨的機遇與挑戰」為題發表演說,其中述及工業大數據。

一個名詞已經 17 歲,前身起於超過半個世紀以前,卻還有台灣人覺得是「未來」,討論科技產業,卻不知有台北國際電腦展?竟然歌頌已經是自 1959 年以來的老東西,忘記 1982 年以來的老展會?

這種神奇資訊落差在台灣屢屢發生,近年來最可悲的一個例子是,中國廣西 2006 年發展出「南寧純資本運作」龐氏騙局,2008 年中國各級政府開始嚴打,並在受騙重災區各地銀行都張貼警語,於是南寧騙局在中國於 2008 年破滅,沒想到在中國已經騙不了人,卻到台灣繁衍興盛,到了 2013 年,全台灣有數萬人受騙,總損失新台幣上百億。

廣西公安於 2013 年 3 月逮捕台灣南寧詐騙首腦余遠螢,遣送台灣,台灣高檢署也於當年 8 月大舉掃蕩,一口氣破獲 20 個詐騙集團,這下總該結束了吧?不,到 2015 年竟然還有台灣人持續受騙,2016 年 4 月刑事局破獲以 LINE 群組詐騙上百受害者的南寧詐騙集團。台灣人消息之不靈通,真可說是一絕。

面對這種消息堵塞的奇怪社會,企業人士、媒體,應該善盡知識份子的責任,疏通阻塞的消息,而不是竟然還自己發揚無知。明末清初文人顧炎武曾說「士大夫之無恥,是謂國恥」,在此借用來照樣造句:知識份子的無知,才真的是國家危機。

(首圖來源:pixabay)