放鈔票圖檔、語音內容之外,如何讓選舉公報被機器更易讀?

作者 | 發布日期 2020 年 01 月 03 日 17:49 | 分類 數位內容 , 科技政策 , 開放資料 Telegram share ! follow us in feedly


正當大家關注候選人國外學歷沒有經過學歷認證程序,導致無法出現在選舉公報學歷欄位,吵得不可開交的時候,主角正巧是曾參與開放資料政策、時任行政院科技政委、副總統候選人張善政成為話題焦點。但更重要的問題是,為何在數位化時代,無法拿到數位資料,還得用人工打字或是 OCR 方式,取得候選人的學經歷、政見電子檔呢?

選戰倒數時刻,協助候選人競選的團隊成員,來到 g0v.tw 後勤中心社團請求協助,她詢問是否有辦法將中選會釋出的含有候選人政見的選舉公報 PDF 檔案,用機器可讀方式整理出來。她的團隊需要有格式化數位化的資料,才能減少製作文宣的複雜度,不然就得用人工方式一個個複製貼上,甚至是重新打字處理了。

洪委員的求救請求協助的訊息,吸引不少人討論,例如長期關注開放資料的人,像是在 OpenData Taiwan Facebook 社團當中,開放文化基金會法制顧問,行政院開放資料諮詢委員林誠夏,就總結先前中選會在開放資料做的事情,認為中選會曾接受過補助做資料開放的示範專案,但仍在 2020 年選舉時候,釋出無法機讀的 PDF 格式檔案,他認為中選會的開放資料諮詢委員應該總結狀況後能做出改善。

林誠夏在討論區當中的評論引起一陣討論,因為除了政府定時釋出的統計性質資料,選舉資料是開放政府資料當中的重點資料,而且在各界努力之下,過往的選舉資料,例如候選人的基本資料,或是最終投票數,都有建置資料庫。但問題如今是最新選舉的資料,能否即時獲得程式能夠讀取的資料格式。

▲ 中選會因應網路閱讀查閱資料製作的電子選舉公告,比起紙本版本少了政見資料,不過每一組候選人都有獨立連結,符合開放資料標準當中的連結資料要求。(Source:中選會)

2018 年地方縣市長與議員選舉時,中選會首次開放候選人能上傳圖片到選舉公報當中。文字排版,還有放圖片,甚至加上 QRCode,讓有興趣的人連到候選人的網站,動態接收候選人想要傳達的政見。只是對於想要用機器爬取候選人政見的人來說,為了排版方便而用圖檔處理,是可以理解的,但對於機器處理來說,就很痛苦了,無法輕易進行後續的分析再利用了。

▲ 不少關心選舉資料的人,決定自力救濟共同編輯線上版的選舉公告,處理無法第一時間拿到機器可讀資料的問題。(Source:2020 選舉公報)

同樣在 2018 年,中選會首創數位選舉公報,只是內容上面不及實體選舉公報,並沒有放上候選人的政見資料,只有列出候選人性別、出生年月日、號次、選區、代表政黨。

有人關注選舉公報是否是機器可讀的,也有人關心選舉公報是否具備足夠親和力,是否滿足各式障礙者的需求,例如視障者需求。具有聽力師資格,台灣網路早期活躍的部落客 Jedi Lin,就檢視 PDF 版選舉公告,還有語音版本公告情形。Jedi 檢視 PDF 發現多項親和性缺失狀況,並將中選會推出的語音版選舉公告,比喻成像是聽 CD,必須從頭到尾聆聽,而無法跳到有興趣的候選人段落,方便性來說打了些折扣。

▲ 2018 年選舉黃宏成台灣阿成世界偉人財神總統在政見欄放上鈔票,2020 年大選則是傳單資訊放到政見欄當中。(Source:中選會)

實體的選舉公報會登載什麼內容有其長期的歷史因素,進入數位時代出現新的需求,是再自然不過的事情,而且有逐步改善的空間。選舉公報除了傳統文字資料,還要容納像是圖檔、語音等越來越多樣形態的資料,不再只有純文字資料。如何讓機器更容易讀取這些資料,是關心選舉還有開放政府資料的人,能跟政府建言和研擬適合的做法。

(2020-01-04 12:23:更正在 g0v 後勤中心詢問選舉公報未提供機讀格式相關問題發文者資訊)

(首圖來源:pxhere, CC0)