涵蓋 101 種語言，Google 自然語言模型 MT5 開源化

機器學習自然語言模型一向備受重視，大型科技企業都紛紛推出各自模型，而在 Google 也不落人後，最近開源了 MT5 自然語言模型，據稱表現相當優異。

Google 的 MT5 是 T5 模型的多語言版，使用包含 101 種語言數據集訓練，有約 3 億至 130 億個參數，並聲稱可學習超過 100 種語言而不會出現干擾問題。這個模型的開發目的，是要讓電腦理解全球超過 7,000 種語言，能在類似語言之間共享資訊，讓資源不足的語言也能有效分析，甚至模型從未接觸過的新語言也能處理。

MT5 採用的訓練數據集為 MC4，來自 Common Crawl 網路收集的超過 10,000 個網頁。Google 表示，截至 2020 年 10 月，最大 MT5 模型在各項測試分數都得到第一，包括 Xtreme、XNLI、XQuAD、MLQA 和 TyDi QA 等。MT5 推出後，將會成為繼 Facebook 和微軟之後，另一個相當強勁的自然語言模型。