支援全球逾千種語言,Meta 發表 AI 新模型助語音、文字互轉

作者 | 發布日期 2023 年 05 月 23 日 13:09 | 分類 AI 人工智慧 , Facebook line share follow us in feedly line share
支援全球逾千種語言,Meta 發表 AI 新模型助語音、文字互轉


世界上許多語言都有消失的可能性,目前語音辨識和語音生成技術的局限恐怕加速此一趨勢。Facebook 母公司 Meta 新發表的 AI 模型,希望藉此幫助大家以自己習慣的語言,更輕鬆地獲取資訊。

Meta 新的大規模多語言語音(Massively Multilingual Speech,MMS)模型拓展了語音、文字相互轉換的應用範圍,從最初的 100 種語言,至今已能轉換超過 1,100 種語言,還能夠辨識超過 4,000 種口語語言。

Meta 稱這項技術已有許多應用案例,從 VR、AR 再到訊息服務都有,用戶不僅能夠使用偏好的語言操作,更能理解每個人的聲音。

過去最大型的語音資料庫最多僅涵蓋 100 種語言,因此開發新技術所面臨的第一項挑戰即是收集數千種語言的語音訓練資料。為此 Meta 使用翻譯成多種語言、譯文已被廣泛閱讀和研究的宗教經典如《聖經》,作為語言的文字訓練資料。

聖經譯文有多種語言的公開錄音檔,而 Meta 創造的資料集,收集超過 1,100 種語言的《新約聖經》有聲讀物資料集,平均為每種語言提供 32 小時的語音訓練資料,後續又加入其他未標記的基督教有聲讀物後,可用的語言訓練資料涵蓋超過 4,000 種語言。

雖然資料集收錄的聲音以男性居多,但 Meta 的測試成果顯示,不論是男性或女性的聲音,這個語音模型皆能同等準確地辨識。此外,上述的語言訓練資料大多為宗教相關的內容,但 Meta 分析,這不會使語音模型傾向產生更多宗教性質的語言。

▲ Meta 展示以 MMS 模型為基礎,幫助語音轉換文字的功能。

Meta 的 AI 技術在語音辨識和翻譯等領域多有著墨,去年曾為以口語表達、缺少標準書寫文字的「閩南語」打造一個史無前例的 AI 技術翻譯系統,其中更有台籍研究員陳鵬仁參與開發。這不僅貼近台灣民眾日常熟悉的口語,也讓不懂「閩南語」的祖克柏(Mark Zuckereberg)能聽懂陳鵬仁想表達的意思。

Meta 開源 MMS 模型和原始碼,讓研究人員能夠以現有的工作成果為基礎繼續開發,一同保存全球的語言。與此同時,Meta 也繼續擴增 MMS 模型的涵蓋範圍,支援更多語言的辨識和轉換,並努力克服現有語音技術難以處理方言的挑戰。

(首圖來源:影片截圖

延伸閱讀: