忘掉開放資料吧!回歸資料運用本身!

作者 | 發布日期 2014 年 05 月 02 日 17:27 | 分類 精選 , 開放資料
open-data-tca-20140430

談起開放資料,最近沉寂不少。原因很多,包括能供應開放資料大宗的政府,並沒有釋出夠重量級的資料集出來。像是前陣子財政部基於政治考量,不公佈 20 等分位的賦稅資料分佈。由於政府資料大都是一般人民難以自行收集,政府各機關的態度影響開放資料甚大。這次台北市電腦公會,鎖定媒體從業人員,辦理開放資料媒體研討會,實則是資料研討會。活動請來的兩位講者李怡志和羅佩琪談的是資料運用,說是開放資料就不怎麼精確了。如同兩位講者都有說到,請忘記開放資料這件事情,我們談的是資料運用。



百年前的疾病追追追,如何找到倫敦霍亂大爆發原因

電腦公會請來李怡志,談資料分析。目前在 Yahoo 台灣工作的李怡志,擁有相當長時間經驗處理資料運用在報導上,為公認的資料視覺化專家。對於 Open Data,由於現在有用、有價值分析的資料釋出不多,他也說自己算是跑資料分析來做新聞,資料來源大都不是開放資料,並不算開放資料專家。他做得是資料新聞學 (data journalism)-用資料為依據來做新聞報導。資料視覺化則是讓數據圖形化,能讓人一面了然因果關係,重點更凸顯出來。

chart-of-cholera-outbreak-in-taipei▲ 官方常常提供看似很齊全的資料,但細看下沒辦法繼續追查下去

李怡志融合資料視覺化始祖 John Snow 與自身跑新聞的經驗,做了真假參雜的情境故事,將講到爛掉的經典資料視覺化, 倫敦霍亂大爆發的故事給予現代化的意義。這邊提到的 John Snow 並不是冰與火之歌那一位鎮守北方的私生子,而是當時在倫敦行醫的醫生,李怡志在演說中將他比喻為記者,追查倫敦霍亂爆發背後的真相。1854 年倫敦爆發霍亂大流行,John Snow 從官方拿到病例資料,但無法繼續追查下去,只好一戶一戶親自拜訪調查。最後用點狀分佈圖呈現水井與病例的空間分佈,找出蘇活區霍亂來源是某一口井水污染造成,進而讓當局封掉這口井,不再使用。John Snow 也被視公共衛生的始祖。

1098px-Snow-cholera-map-1▲ 圖片來源:By John Snow (Rewardiv at en.wikipedia) [Public domain], from Wikimedia Commons

snowkdemap1854res120don▲ 用現代化的技術熱力圖呈現病例的情形。圖片來源:Flesh and Bone

apple-daiy-of-richyli▲ 李怡志用臺灣的報紙現況模仿 1854 年倫敦霍亂大爆發,蘋果日報可能的頭版處理方式

united-news-of-richyli▲ 李怡志用臺灣的報紙現況模仿 1854 年倫敦霍亂大爆發,聯合報可能的頭版處理方式

richyli-case-list▲ 李怡志用病例資料舉例,去除可識別個人的案例資料,可以做不少事情

4 月 9 日,美國聯邦政府 CMS (the Centers for Medicare & Medicaid Services)為了政府透明及開放的概念,將 2012 年的健康保險給付開放釋出。由於資料量相當大,總共有 88 萬健康照護機構的給付資料,直接就在網站上講說請別用用 Excel 處理所有資料,因為沒辦法直接分析所有資料。除了提供 CSV 檔之外,Excel 檔得依字母分成好幾個檔案。

一般媒體除了直接分析資料當作報導素材以外,針對這些健保給付資料,還有很多不同的運用方式。像是 Pro Publica 賣整理好的資料給其他媒體,就不只是媒體的角色。或者是追求影響力,像華爾街日報為例,做出工具幫助小媒體,方便依照不同查詢條件,運用這些整理過的資料。

wallstreet-journal-medicare-payments-query▲ 華爾街日報將 2012 年的給付資料整理好,做出查詢介面

李怡志舉了幾個運用數據到報導的例子,像是衛報等做資料新聞學的媒體,將報導所本的數據,附上原始數據。如果想要驗證報導或是做衍生報導的人,可以直接用原始數據。李怡志分析方仰寧粉絲團按讚數,李怡志把自己收集的原始資料放出來,有興趣的人可以進一步分析,有人做圖發生方仰寧粉絲團的人數與生長曲線相仿。

police-officer-fang-facebook-page-likes▲ 方仰寧粉絲團的成長人數曲線

Google-Making-Sense-of-Data - Course▲ 李怡志推薦的 Google Make Sense of Data MOOC 線上課程,類似的課程還有 School of Data

病後人生-社福資源資訊站

第二位講者羅佩琪,是病後人生|一站式服務網的站長,相對於第一位講者李怡志是資料分析專家,羅佩琪則是資料加值者,將分散在各處的政府補助資源弄成好查詢的界面,方便大家快速找到想要的資源。

afterthatday-lo▲ 病後人生站長羅佩琪分享她的經驗

羅佩琪之所以開始病後人生這個站,與他的家庭有關,父親因公生病,突後重病沒有工作能力,對家庭影響很大,她父親公司人資提可從政府獲得相關的補助資源,因而開始翻政府社福網站查找可用的補助。之後想說把這些資料分享出去,就開始病後人生這個網站了。

afterthatday-faq▲ 病後人生常見問題 FAQ

羅佩琪比喻自己是政府資源小爬蟲,自己並不會寫程式,頂多就是會善用別人做好的資訊工具。政府網站有時候會改版,原先文章連到的連結會失效。這方面羅佩琪感到相當困擾,她的應對之道就是會把找到的網頁抓下來,再憑裡頭的關鍵字找到新的網頁。病後人生網站採用 Blogger 系統,對於後續維護來說也會是問題。衛福部有份轄下機構的清單,但很可惜並無經緯度資訊。運用由李小淮開發地址經緯度轉換工具,用到 Google Maps API 驅動的 geo-coding 功能,將衛福部的長照機構,地址轉成經緯度,方便後續應用,像是搭配 CartoDB 呈現空間分佈。

cartodb-Long-Term-Care-in-taiwan▲ 用 CartoDB 顯示長照機構分佈與當地機構可服務人數,站長用了不少資訊工具達成她想做的事情

這次台北市電腦公會請來媒體,談談資料可以如何運用在媒體。姑且不論媒體是否能將資料分析融入其工作,而不只是報導的題材,但請來的兩位可說相當好。政府真的釋出更多開放資料,甚至重量級資料也釋出的話,這次談到的資料分析以及資料清洗的能力,就能真正讓開放資料的使用動機出現了,不然現況只是笑笑政府提供那什麼鬼開放資料。 

發表迴響