涵蓋 101 種語言,Google 自然語言模型 MT5 開源化

作者 | 發布日期 2020 年 10 月 30 日 8:30 | 分類 Google , 軟體、系統 Telegram share ! follow us in feedly


機器學習自然語言模型一向備受重視,大型科技企業都紛紛推出各自模型,而在 Google 也不落人後,最近開源了 MT5 自然語言模型,據稱表現相當優異。

Google 的 MT5 是 T5 模型的多語言版,使用包含 101 種語言數據集訓練,有約 3 億至 130 億個參數,並聲稱可學習超過 100 種語言而不會出現干擾問題。這個模型的開發目的,是要讓電腦理解全球超過 7,000 種語言,能在類似語言之間共享資訊,讓資源不足的語言也能有效分析,甚至模型從未接觸過的新語言也能處理。

MT5 採用的訓練數據集為 MC4,來自 Common Crawl 網路收集的超過 10,000 個網頁。Google 表示,截至 2020 年 10 月,最大 MT5 模型在各項測試分數都得到第一,包括 Xtreme、XNLI、XQuAD、MLQA 和 TyDi QA 等。MT5 推出後,將會成為繼 Facebook 和微軟之後,另一個相當強勁的自然語言模型。

(本文由 UnwirePro 授權轉載;首圖來源:Unsplash