微軟與 Nvidia 合作訓練最大型語言模型

語言模型是科技公司爭相開發的技術之一，最近微軟與 Nvidia 宣布合作訓練至今最強解碼語言模型，比最大型 GPT-3 參數多 3 倍。

微軟和 Nvidia 表示，名為 MT-NLG 的單體 Transformer 語言模型共有 5,300 億參數，以 NvidiaDGX SuperPOD 為基礎的 Selene 超級電腦混合精準度訓練。訓練運算極龐大，這台超級電腦擁有幾千個 GPU 平行運算，再結合 Megatron-LM 和 PyTorch 深度學習最佳化函式庫 DeepSpeed 提升效率，才在合理時間內訓練出這規模的模型。

（Source：微軟）

由於 MT-NLG 擁有極多參數，不同自然語言任務都有相當優秀的表現，且除了自然語言，也可做基本數學運算，不只使用記憶算數，未來發展令人期待。微軟 Turing 團隊主管 Ali Alvi 和 Nvidia 產品管理及行銷高級主管 Paresh Kharya 表示，期待 MT-NLG 形塑未來產品，並鼓勵開發者社群探索自然語言處理（NLP）的極限。