從爭議性的犯罪資料釋出,來看不完美的資料如何可能催生新型態資料服務公司

作者 | 發布日期 2015 年 10 月 15 日 15:51 | 分類 網路 , 開放資料 follow us in feedly
data-portal-taipei

台北市將竊案資料釋出,讓向來對開放犯罪資料出來有疑慮的人帶來相當大的震憾,博得不少媒體版面和社群討論熱度。我們能夠理解政府當局迫於對地方的衝擊,釋出位置描述相當模糊的犯罪資料。儘管表面看起來是政府仍舊很保守,釋出的資料相當粗糙,格式不是很整齊,但實際上是形成新興產業發展的機會。



我們來仔細看台北市政府釋出的這些犯罪資料,總共有三筆:台北市住宅竊盜點位資訊 台北市汽車竊盜點位資訊台北市自行車竊盜點位資訊 ,分別有三個主要欄位:案類、時間、地點。從案類來看,顯然是內部挑過過濾後才釋出,因此就只有竊盜類。地點資訊類似用實價登錄的模式,只公布粗略的地段,像是「台北市北投區一德里中央北路4段121-150號」,不是精確的地址,而是門牌號碼區間。目前公布的時間區間是 104 年 1-9 月的資料,每三個小時為一間隔記錄。所以不只是地點粗略,而時間也不是精確的時間。

crime-of-stealing-table

▲ 市政府提供的犯罪資料列表。

crime-map-not-shown

▲ 台北市的資料平台由於資料並沒有經緯度,而是粗略的門牌範圍,無法在內建的地圖上顯示。

csv-format

▲ 下載下來的資料,csv 檔案時間欄位格式不一,得經過處理才能使用。

csv-format-ununify

▲ 時段的格式不一,有用「01-03」,也有用「1-3」。

由於很好奇一天之中那個時段最容易失竊,想分析一天中不同時段的竊盜發生次數是否有差異,就拿單車竊盜資料集來分析時段是否有差異。由於這筆資料時間欄位是年、月、日、幾點幾分寫在一起,因此得將年、月、日去除,用純文字處理軟體的正規表示式處理後,得到單純的小時區段數字。

程式很笨,必須將資料整理成它們讀得懂的格式,才能進一步視覺化或是分析。綜觀世界各國或是台灣的開放資料,很多往往不能直接使用,得處理過後才能使用。而政府由於體制關係,對於新的應用可能不是很上手,不知道該提供到什麼程度的資料才算好。但要政府無限制的用資源提供最好的資料,也並不可能,這時候民間的商業、NGO 就得適時出來了。

hours-of-crime-bike-chart

▲ 用 Excel 簡單統計 2015 年 1 月至 9 月的單車竊案次數,並製作成圖表後,發現白天的案件較多。

千呼萬喚的犯罪資料終於出現了一些

儘管犯罪資料算是相當基本的開放資料集項目,看遍各國的資料入口網站都可以找到犯罪資料。但在台灣要釋出這些資料卻遇到相當大的阻力,不論是民情或是資料收集者警政單位,擔憂房價或者民情譁然。內政部先前已經放出易發生婦幼被害犯罪地點,如今台北市跨出一大步,放出竊盜類犯罪資料是一大突破。

 

資料分析公司將提供「好」的資料

官方基於隱私問題,用比較大的尺度來放出向來很敏感的犯罪地點資料,這能夠理解,但也造成資料不能直接就拿來用的問題。但問題的產生也意味著能夠解決問題的人,他們的舞台也來了。未來因開放資料政策受惠的公司、新創或是個人,有一部分將專注在提供資料格式、資料本身的整理工作。也就是將不能直接運用的資料,經過處理後,後續能夠產生有意義的分析結果。一般俗稱這類公司叫資料清洗公司,提供資料處理的服務。這也是開放資料政策推動以來,所欲形成的新形態廠商。

發表迴響