語言模型是科技公司爭相開發的技術之一,最近微軟與 Nvidia 宣布合作訓練至今最強解碼語言模型,比最大型 GPT-3 參數多 3 倍。
微軟和 Nvidia 表示,名為 MT-NLG 的單體 Transformer 語言模型共有 5,300 億參數,以 NvidiaDGX SuperPOD 為基礎的 Selene 超級電腦混合精準度訓練。訓練運算極龐大,這台超級電腦擁有幾千個 GPU 平行運算,再結合 Megatron-LM 和 PyTorch 深度學習最佳化函式庫 DeepSpeed 提升效率,才在合理時間內訓練出這規模的模型。
(Source:微軟)
由於 MT-NLG 擁有極多參數,不同自然語言任務都有相當優秀的表現,且除了自然語言,也可做基本數學運算,不只使用記憶算數,未來發展令人期待。微軟 Turing 團隊主管 Ali Alvi 和 Nvidia 產品管理及行銷高級主管 Paresh Kharya 表示,期待 MT-NLG 形塑未來產品,並鼓勵開發者社群探索自然語言處理(NLP)的極限。
(本文由 Unwire Pro 授權轉載;首圖來源:shutterstock)