柯 P 語錄、蔡總統文告也收錄,Mozilla 同聲計畫要建構無使用限制的全球最大語音語料庫

作者 | 發布日期 2018 年 07 月 23 日 14:51 | 分類 網路 follow us in feedly

語音助理風行,從矽谷到東亞的中國、日本公司,不少科技公司投入資源進來發展這塊。但對不少新創還是學生研究人員來說,首先第一步遇到的問題是,他們沒有大公司資源,也無法靠一己之力收集所需要的訓練資料。Mozilla 看到這個問題,決定用開放創新 (Open Innovatoin) 方式來收集語音資料。Mozilla 的同聲計畫 (Common Voice)運行一段時間,並且已經釋出英文的語料庫出來,可以供 AI 訓練語言辨識模組。台灣社群的努力,開始台灣的語音收集計畫,並且收錄包括柯 P、蔡總統文告,變成語音訓練資料庫的一部分。




Mozilla 的 Kelly Davis 是語音辨識的專家,說語音辨識是相當複雜的過程,細部拆解可以分成語音截取、語音辨識、自然語言理解/對話 AI、自然語音生成,以及合成對話。目前同聲計畫專注在收集語音資料這一步,然後收集足夠多的對話文字和語音資料,就可以做 Speech to text 的轉換。他們自己評估需要收集不同人共 10,000 小時的錄音,就能訓練出可以媲美 Google 語音助理效果的語音辨識 AI 了。

▲ 語音相關技術彼此之間的關係,而同聲計畫則是在第二步語音辨識這邊。(Mozilla 提供)

由於全球的科技公司以北美為主,因此做語音助理這塊,用北美男性口音效果最好。但北美的人口只是全球人口一部分,要能夠服務全球所有人口,必須廣納全球各地不同人的聲音,儘量多樣的聲音,男女老幼聲音都要能盡力收錄。

▲ 同聲計畫專注 Speech-to-Text 這塊,而 Mozilla 另一個計畫 Deep Learning 則是做語音生成這塊。(Source:科技新報)

資源少,還沒辦法好好寫說明文件

同聲計畫團隊的 Michael Henretty 稱讚先前《科技新報》的文章有類似一步一步帶的操作步驟說明,還有清礎說明那些平台可以用,特定平台又要怎麼用,他們團隊小,而且為了避免計畫人力過大,影響既有 Mozilla 的任務,以小團隊的方式進行,甚至美編還得共用。同聲計畫還沒有時間精力撰寫說明文件。Michael 聽到下載出問題的狀況,如同前面提及的文件還不大夠的問題,說他們還沒有時間好好優化流程,之後要好好來改善。

▲ 如何錄音的說明,同聲計畫還沒有太多精力撰寫。同聲計畫也有想要拍說明影片,介紹如何錄音及驗證錄音資料。(Source:科技新報 )

同聲計畫資源不多的狀況,還反映在這個計畫還並沒有 logo。很多素材的現況,如充做吉祥物角色的機器人,則是去年在台灣的設計思考工作坊的產物。Henretty 說他們希望之後有更多資源進來,計畫本身有更多動力,週邊的行銷資源也能改善。

同聲計畫團隊指他們聽到不少參與者的心聲,如加上錄音排行榜,以及離目標 10,000 小時完成度的百分比餅圖。另外針對收集錄音對象,能夠更細致的詢問年齡、出生地,讓 AI 訓練更為精確。

柯 P、蔡總統文告成為素材之一

Mozilla 台灣社群聯絡人 Irvin 說他們收集屬於公有領域的素材,像是不受台灣著作權保護的政府官員說話的新聞稿。因此訓練的素材有柯文哲市長的致辭新聞稿,或是蔡文英總統的文告,各位可以念到柯 P 語錄或是蔡總統的發言。

維基百科是規模相當龐大的文字資料庫,但受限維基百科採用 CC-BY-SA 方式授權,因此不能使用。由於預期語音的應用會需要混搭,因此採用寬鬆的 CC0 授權,幫助新創和學生發展不同的語音應用。

目前同聲計畫計畫共錄製 900 小時,有 112 個國家參與。同聲計畫已經是全球第二大開源語料庫,預計不久之後,2018 年年中會超越最大 LibriSpeech 成為最大開源語料庫。

▲ LibriSpeech 是全球最大的開放語料庫,但預料不久應會被同聲計畫超越。(Source:科技新報)

而各別語言拆開論述。大家關心台灣的部分,目前已經收集 36 小時的錄音,這不過是從 6 月 30 日開始的累積成果,這樣的成績相當不錯。如果依據同樣速度前進,可以很快超車排名第二、第三的法國和德國,站上第二名的位置。

開放創新,多個利益相關者共同參與的創新方式

Mozilla 強調開放創新的理念,相對之下就是傳統公司關起門的研發。Mozilla 發展同聲計畫,就有來自學界的幫忙,如威爾斯的 Bangor University in Wales 長期致力收集和保存凱爾特語言,就提供語言學的專業知識,實際的語音收集技術,以及另一種接觸人的方法。Bangor University 的老師就說,他們出去收集素材,會被要求有償進行,但 Mozilla 發起的計畫,卻能動員人們免費參與,免費給錄音出來。Bangor University 已經收集五年了,成果卻比不上同聲計畫。

Davis 就說同聲計畫與 Bangor University 的合作就是相當典型的開放創新,Bangor University 提供語言保存角度可以怎麼做的作法,Mozilla 則是提供軟體技術的支援。

儘管同聲計畫資料庫採用 CC0 的授權,別人用資料可以不必標示出處,但同聲計畫團隊表示,仍希望能被使用者告知,知道他們辛苦收集的資料用在何方。商業公司如 Google,已經有用到釋出的英文語料資料了,新創公司 Mycoft 則是搭配 Mozilla 另一語言專案 Deep Speech,做出類似 Siri 的產品。

台語、客語,多個原住民語言都可能收錄

不少人可能好奇能否收錄 Taigi (台語)、Hakka (客家話)、眾多原住民語言等台灣語言。同聲計畫團隊指他們的力量有限,無法接觸世界上每種語言。以他們角度則是儘可能 empower 各個社群,要他們來參與,鼓勵他們參與,在由社群制訂方法和收錄文字資料。而台灣社群相當積極推動同聲計畫,也讓台灣很快就能收集自家的語言資料了,成為亞洲第一個開始的語言。

Irvin 提台灣社群討論時,有想過以漢字、台灣羅馬字並列的方式生出台語的文字資料,而原住民語言則先列出用漢字寫的文句,族人依據他們族語的念法,直接念出來。

同聲計畫團隊說中文的挑戰相當巨大,像是有繁簡體字兩套文字書寫方式,同樣的文字說話的語音不同,地理分佈導致語言有相當大的差異。所以這就是社群內部討論的重要性所在,最終依據討論成果列出收錄方式和文字的資料庫。

有這麼多技術可以做,為何挑選語音辨識。Davis 表示不少人不識字,對於電腦慣用的鍵盤輸入並不熟悉,如果直接用語音方式操作,會更為直接,能夠接觸需要網路的人。未來 Mozilla 的 Firefox 瀏覽器,計畫加上直接聲控的功能。

(首圖圖說:同聲計畫在台灣的社群活動,同聲計畫成員介紹專案。來源:科技新報)

延伸閱讀: