機器學習自然語言模型一向備受重視,大型科技企業都紛紛推出各自模型,而在 Google 也不落人後,最近開源了 MT5 自然語言模型,據稱表現相當優異。
Google 的 MT5 是 T5 模型的多語言版,使用包含 101 種語言數據集訓練,有約 3 億至 130 億個參數,並聲稱可學習超過 100 種語言而不會出現干擾問題。這個模型的開發目的,是要讓電腦理解全球超過 7,000 種語言,能在類似語言之間共享資訊,讓資源不足的語言也能有效分析,甚至模型從未接觸過的新語言也能處理。
MT5 採用的訓練數據集為 MC4,來自 Common Crawl 網路收集的超過 10,000 個網頁。Google 表示,截至 2020 年 10 月,最大 MT5 模型在各項測試分數都得到第一,包括 Xtreme、XNLI、XQuAD、MLQA 和 TyDi QA 等。MT5 推出後,將會成為繼 Facebook 和微軟之後,另一個相當強勁的自然語言模型。