Meta 開源 AI 模型支援 200 種語言,身處元宇宙也能吃下「翻譯年糕」

作者 | 發布日期 2022 年 07 月 07 日 16:25 | 分類 AI 人工智慧 , Facebook , 元宇宙 line share follow us in feedly line share
Meta 開源 AI 模型支援 200 種語言,身處元宇宙也能吃下「翻譯年糕」


你有用過 Facebook 或 Instagram 上的「翻譯年糕」嗎?Meta 6 日正式發表 AI 人工智慧技術的重大突破,其 NLLB 專案已打造出 NLLB-200 AI 模型,是全球第一個能翻譯 200 種不同語言的單一模型,可為超過 10 億人提供高品質翻譯內容。此外,為了協助研究人員改善翻譯工具,並在此基礎上打造更優質的翻譯系統,Meta 開源釋出包括 NLLB-200 模型、FLORES-200、模型訓練程式碼以及用於重建訓練資料集的程式碼。

現今世界上有數十億人,無法透過他們慣用的語言讀取網路上的內容或者完整參與社群上的討論,尤其是在非洲、亞洲等地區有多達數億人使用眾多不同的語言,這樣的狀況特別明顯,試想未來在元宇宙,他們又該如何即時溝通?為協助網路社群突破語言隔閡,甚至進一步促進未來的元宇宙發展,Meta AI 研究人員成立了「絕不拋下任何語言」(No Language Left Behind,NLLB)專案,為全世界大多數語言提供翻譯功能。

尤其 NLLB-200 AI 模型已能翻譯 200 種不同的語言,包括許多目前翻譯工具無法支援的非洲語言以及其他少數語言,翻譯品質相較現有翻譯工具平均提升 44%。Meta 更與維基媒體基金會(Wikimedia Foundation)合作,透過 NLLB-200 協助改善維基百科的翻譯系統,並開放 NLLB-200 原始碼讓其他研究人員可以將此研究擴大至更多語言,打造更具包容性的技術。

能夠透過 AI 翻譯內容將對民眾日常生活影響甚鉅,NLLB 不只讓大家更容易獲取網路上的內容,也可以讓不同語言的用戶貢獻並分享資訊。NLLB 研究成果將支援 Facebook 動態消息、Instagram 與 Meta 其他平台上每天提供逾 250 億則內容,當瀏覽不同語言的社群內容時,只要點擊一個像是「翻譯年糕」的按鍵就能透過熟知的語言準確了解網路上的資訊。

為了精進 NLLB-200 AI 模型,Meta 建立獨特的多對多評估資料集 FLORES-200,讓其他研究人員可以評估 NLLB-200 在各語言中的運作成效,確保提供高品質的翻譯內容。在多項指標中,相較於現有的其他翻譯工具,NLLB-200 的平均品質高出 44%,在部分非洲和印度語言更提升 70%。

為了以負責任的方式發展這項計畫,Meta 與語言學家、社會學家、倫理學家等跨學科團隊合作,深入了解各種語言。此外,為管理因翻譯擴大至 200 種語言而衍生的負面內容風險,Meta 對所有支援的語言建立負面內容清單,以便偵測篩選出褻瀆性詞語或可能具有冒犯性的內容,同時將內容清單分享給其他研究人員。而為協助其他研究人員迅速測試及改善其翻譯模型,Meta 開放 NLLB-200 AI 模型的原始碼並發布一系列研究工具,讓其他研究人員將此擴大至更多語言,並打造更具包容性的技術,更詳細的技術細節可參考 Meta AI 的說明。

(圖片來源:Meta AI

延伸閱讀: