Meta AI 新模型像吃翻譯年糕,可語音、文字相互翻譯成百種語言

作者 | 發布日期 2023 年 08 月 23 日 9:14 | 分類 AI 人工智慧 , Facebook line share follow us in feedly line share
Meta AI 新模型像吃翻譯年糕,可語音、文字相互翻譯成百種語言


為了開發能夠理解一系列不同語言的 AI,Meta 新建立 AI 模型「SeamlessM4T」,它可以翻譯和轉錄近 100 種語言的語音和文字,並稱 SeamlessM4T 代表了 AI 進行語音和文字互轉的重大突破,使不同語言的人能夠溝通。

SeamlessM4T 可說是 Meta「絕不拋下任何語言」(No Language Left Behind,NLLB)專案和通用語音翻譯工具(Universal Speech Translator,UST)專案的意志繼承者,建立在大規模多語言語音(Massively Multilingual Speech,MMS)基礎上,能夠翻譯並有語音轉語音、語音轉文字、文字轉語音、文字轉文字 4 種模式,支援近 100 種語言。

▲ Meta 執行長祖克柏(Mark Zuckerberg)介紹 SeamlessM4T 模型 4 種模式。

在開發過程中,Meta 從網路上抓取公開的文字(約數百億個句子)和語音(約 400 萬小時)做為訓練資料,並稱挖掘而來的資料不受版權保護,主要是開源或取得許可的內容。

Meta 使用抓取的語音和文字建立 SeamlessM4T 的訓練資料組,內部稱為「SeamlessAlign」。研究人員將 44.3 萬個小時的語音和文字配對,並建立 2.9 萬個小時「語音轉語音」配對內容,如此一來教會 SeamlessM4T 如何在語音和文字之間相互翻譯。

Meta 稱以內部基準進行測試下,與目前最先進的語音轉譯模型相比,SeamlessM4T 在語音轉文字的處理表現最好,歸功於訓練資料組有著語音和文字資料的豐富組合,Meta 認為這使 SeamlessM4T 比純語音和純文字的翻譯模型更具優勢。

SeamlessM4T 看起來相當強大,但並非十全十美。Meta 透露該模型翻譯中性字詞翻譯,容易過度概括成男性,且在涉及男性(如出現 he 等名詞)的英文翻譯時表現較其他語言好,推測可能是因訓練資料有過度的男性詞彙導致這種結果。

Meta 並不是唯一一家投入資源開發 AI 翻譯和轉譯工具的公司,如微軟、OpenAI、Google、亞馬遜以及許多新創公司也都參與此一領域,但 Meta 強調 SeamlessM4T 將翻譯和轉譯功能整合至單一模型,展現其在 AI 領域的野心。

Meta 一直以開源方式向開發者和研究人員發布 AI 模型,除了上述的 SeamlessM4T,日前推出可用文字創造音樂的 AudioCraft 模型,更重要的還有提供大型語言模型 Llama 2 的開源使用。

(首圖來源:Meta AI

延伸閱讀: