總長 30 小時鄉民貢獻聲音,Mozilla 同聲計畫中文語音資料搶鮮版開放下載

作者 | 發布日期 2019 年 01 月 24 日 16:50 | 分類 AI 人工智慧 , 社群 follow us in feedly

由鄉民參與收集的語音資料庫 Common Voice 同聲計畫,如今開放釋出 多國含台灣中文語音資料 (Beta 版),有興趣先行試用訓練語音 AI 的人,可以下載台灣中文資料。




根據 Mozilla 台灣社群聯絡人、Common Voice 專案志工 Irvin 表示,台灣中文的語音檔案,包含自去年 6 月開始至今的完整錄音,總共 3 萬 6 千個音檔,890MB,總長度約 30 小時,其中經過使用者兩次驗證的部分約 16 小時。

下載方式可到 Discourse 論壇閱讀說明下載文件檔,填寫表單後才能取得整份壓縮過,採用 P2P dat:// 協定傳播的語音檔。

Mozilla 相信網路社群的積極參與,因此此次多國語音資料 (Beta 版) 不放在 Common Voice 網站,而是在 Discourse 論壇釋出檔案,希望不只有 Mozilla 公司,還有 Mozilla 社群以及語言辨識的專家學者共同來參與,激發更大的火花。

Common Voice 同聲計畫收錄的語音以及對應的文字,採用 Creative Common Zero 的拋棄著作權授權方式,由於預期語音的應用會需要混搭,同聲計畫因此採用寬鬆的 CC0 授權,幫助新創和學生應用同聲計畫的語音庫,發展出不同的語音應用。

目前在台灣志工的經營下,去年建立了兩個 Common Voice 台灣社群討論頻道:

另外 Mozilla 社群也歡迎有興趣的人,到 Discourse 與團隊工程師以及其他國家的社群交流:https://discourse.mozilla.org/c/voice

(首圖來源:Mozilla)

延伸閱讀: