去元宇宙玩聽不懂外語怎麼辦?Meta:新技術可翻譯 128 種語言

作者 | 發布日期 2021 年 11 月 25 日 8:00 | 分類 元宇宙 , 軟體、系統 , 雲端 line share follow us in feedly line share
去元宇宙玩聽不懂外語怎麼辦?Meta:新技術可翻譯 128 種語言


身為元宇宙最堅定支持者之一,Facebook 10 月宣布改名 Meta,之後便動作不斷,先是推出觸覺手套,試圖讓人們在 VR 世界也能有觸覺。

觸覺後 Meta 又盯上語言,要讓人們在虛擬世界無障礙溝通,哪怕雙方語言不同,你說英語,我說中文都能互相理解。

於是 XLS-R 來了,是 Meta 最近發表的 AI 語言處理模型,最多能辨識 128 種語言,已公開網頁體驗版。體驗版功能還不全,僅支援 22 種語言翻譯成 16 種語言,筆者嘗試常見的英翻中,一段 7 秒左右英文語音,XLS-R 能相對準確辨識,中文翻譯和英文辨識都基本正確,兩者耗時都為 1.4 秒左右,並不算短。

對比市面常見語音翻譯應用,速度和轉譯表現其實中規中矩,且對清晰度有要求,一旦語速稍快就難理解出錯。

XLS-R 潛力體現於多語言通用 AI 模型,Meta 技術基於 wac2vec 2.0 預訓練模型,能將語音拆成 25 毫秒的基本單元分析,利用上下文轉換語音,提升辨識準確度。之後 Meta 又多次調整 wac2vec 2.0 技術,嘗試處理多種語言,轉換準確率提升不少,經過 43.6 萬小時公開錄音訓練後,才有如今的 XLS-R。

▲ XLS-R 辨識單詞錯誤率更低。(Source:Facebook AI

XLS-R 僅用一種語言模型就可轉成 128 種語言,和特殊領域使用特殊模型的常見做法不同,大大提升通用性。官方部落格 Meta 表示目標是用單一模型辨識全球 7 千多種語言,改進翻譯演算法。這是個新開始,離真正成為 Meta 設想的虛擬世界基礎部分還有難度,不僅和技術有關,設備算力也是限制。

同為自然語言辨識領域高技術儲備的 Google,其實比 Meta 更早於消費級設備支援多語種翻譯,Pixel 6 系列支援 live Translate 功能,可翻譯聊天軟體,無障礙與外國朋友交流。

只是 live Translate 功能支援的語言並不算多,主要還是英語、德語、日語翻譯,哪怕 Pixel 6 的 Tensor 晶片 AI 性能冠絕全球,達驍龍 888+ 三倍。只有連網 live Translate 功能才能支援 48 種語言,使用雲端計算的 Google 翻譯也僅支援 108 種語言,離 7 千種語言還很遠。

元宇宙仍有段距離,不過 XLS-R 等技術為 Meta 虛擬世界的基礎建設之一,或許能在其他領域發揮作用,現在發布 XLS-R 預訓練模型微調教程,專業人士可基於此微調後應用於工作。

或許不久後,我們能看到越來越多應用支援更多語種語音翻譯。

(本文由 愛范兒 授權轉載;首圖來源:pixabay