AI 科技大擂台的競賽資料,AI 語音數據資料集即將由科技部釋出

作者 | 發布日期 2019 年 06 月 25 日 10:27 | 分類 AI 人工智慧 Telegram share ! follow us in feedly


超高首獎達台幣 2,000 萬元吸引不少好手競逐,但複賽資格嚴格沒有團隊能符合資格的爭議下,「科技大擂台 與 AI 對話」競賽,複賽時團隊時所運用的語音辨識資料集,即將要釋出。儘管因先前爭議籠罩陰影,這次資料集除了初賽混入雜訊的訓練集,以及複賽及決賽當中,採用廣播電台咬字清楚的語音檔案,總共 400 小時長度,搭配標記開放研究者和企業申請使用。

今日 (6/25) 在 2019 在語音訊號處理研討會上,科技部與合作兩大政府廣播電台,教育廣播電台與警察廣播電台,攜手宣布 AI 語音數據集資料集即將上線釋出。台北科技大學廖元甫副教授協助語音資料的標記,而國網中心則提供資料集的儲存空間與連線頻寬。

科技部次長許有進期許語音資料集有助於民生應用,像是各界開發 Chatbot,並且說到這次科技大擂台與 AI 對話競賽,很可惜沒有團隊能符合首獎資格。比賽主辦單位科政中心表示,這 400 小時是先期的測試資料,後續還會有更多資料釋出,現在還在釐清適當的授權,等到確定會有說明頁面,解釋如何下載和運用這些語音資料。

▲ 國網中心資料集平台目前頁面內容有先前競賽釋出的資料集,以及需要申請取得的 400 小時資料集。(Source:國網中心截圖)

要弄語言辨識 AI,相比對岸中國成果相當豐富,原因在有不少有資源的大公司,能解決資料取得上,還有後續標記作業的障礙,台灣要有單一企業弄基基礎的訓練資料,是蠻困難的事情。因此由政府推一把,統合各方建置語音 AI 所必須的訓練資料集,看來是趕上這波 AI 風潮所必須做的事情。

(首圖來源:科技新報)

延伸閱讀: