資料探勘成顯學,媒體業與華爾街趨之若鶩

作者 | 發布日期 2015 年 02 月 16 日 19:18 | 分類 Big Data
big data

當網路成為全世界資訊的集散地之後,傳統新聞業頓時找不到存在的理由,但這場看似新聞業的大海嘯其實沒有這麼可怕,媒體業反而可以利用資料探勘創造新的市場,這種新型態的新聞還成為華爾街交易員擊敗市場變化,抓住獲利機會的重要參考依據。



非結構性資料是寶庫

The Street 報導,從 2008 年大數據還沒有這麼受人矚目至今,許多金融業以及內容公司像是道瓊以及路透社,開始探勘非結構性資訊的比例從 2% 上升到 35%,預期未來結合文字與數據的資料探勘 (TDM) 相關支出也將爆增一倍。非結構性資料對於這些企業而言,就像是一座還沒被開發的水庫。

資料探勘可以協助人類預測未來,譬如某種非預期的蛋白質互動模式,可以協助開發新藥,氣候的小幅變化可以預測小麥的價格走向。華爾街對後者非常有興趣,他們向美聯社購買新聞授權,交易員就使用資料探勘來查覺市場變化,從政府債券到商品價格都可以預測。

 

搶時間,機器比人腦更可靠

美聯社向金融客戶販售機器可讀的新聞產品 (machine-readable news products, MRN),讓資訊可以被更快速組織重整。由於演算法交易對華爾街來說非常重要,其中又以速度最為關鍵,比起人類,機器在處理新聞資訊與回億新聞上更加快速,因此資料探勘對傳統出版業而言,是創造新營收的機會。

除了資料探勘,現在還有一種稱做超文本交易 (hyper-contextual trading),可以辨識所有可靠資訊來支持決策。像是美聯社授權其內容給交易商,交易商使用軟體探勘的不只是數據而已,還有更多質化的內容訊息,譬如政治動盪的故事,或是在 Twitter 上被標籤的企業名稱數量,這些企業希望資料探勘可以提供他們比競爭對手更有意義的優勢。

譬如去年九月,一名記者發布一則 Tweet,是關於美國家庭裝飾品與建材零售商家得寶的信用卡違約新聞,這則訊息只是每天在 Twitter 上 5,000 萬筆訊息之一而已,但被紐約資料探勘公司 Dataminr 視為重要訊息發給訂閱戶,Dataminr 發布這則訊息 15 分鐘後,華爾街日報才報導,緊接著家得寶股價就掉了 2%。

 

海量資訊因資料探勘而更有價值

資料探勘的來源不只是社群,還有全球性的新聞機構,以及科學期刊資料庫等,所以探勘結果不只是提供投資人投資組合,還可以提供罕見疾病臨床診斷的醫療資訊,或是幫助減緩全球暖化的腳步,這些資訊可以讓投資人重新審視醫藥指數基金,以及高溫室氣體排放產業等投資組合是否適當。

2012 年資料探勘準確預測美國大選,讓出口民調頓時成為舊把戲,但是很少人知道增加一則 PO 文,無論是金融報導,或是科學以及學術文章,都可將海量資訊提升至一個全新的層次。出版商與文字材料的使用者都利用大數據技術尋找新的機會。

 

數據與文字需結合才是好新聞

美聯社主編認為,人們已經意識到文字被消費的方式愈來愈多,出版商必須更彈性的運用這些資源,編輯們沒理由不利用探勘技術。華爾街不是資料探勘授權內容的唯一市場,美聯社的新聞也被媒體監控企業,以及公關公司應用於認知計算領域。公關公司使用資料探勘來測量特定議題的情緒反應。

但情感無法單獨透過原始與量化資料就可以找到,所以無論大數據有多麼具有吸引力,將資料與文字結合是必要的動作,而這就需要文字出版者的介入。美聯社數位總監 Bruce Glover 表示,「在資料探勘的輔助下,無論是金融與其他市場,好新聞的成長空間還很大,現在只是剛開始而已。」

(首圖來源:Flickr / r2hox CC BY 2.0)

發表迴響