微軟與 Nvidia 合作訓練最大型語言模型

作者 | 發布日期 2021 年 10 月 15 日 7:45 | 分類 AI 人工智慧 , Microsoft , 處理器 Telegram share ! follow us in feedly


語言模型是科技公司爭相開發的技術之一,最近微軟與 Nvidia 宣布合作訓練至今最強解碼語言模型,比最大型 GPT-3 參數多 3 倍。

微軟和 Nvidia 表示,名為 MT-NLG 的單體 Transformer 語言模型共有 5,300 億參數,以 NvidiaDGX SuperPOD 為基礎的 Selene 超級電腦混合精準度訓練。訓練運算極龐大,這台超級電腦擁有幾千個 GPU 平行運算,再結合 Megatron-LM 和 PyTorch 深度學習最佳化函式庫 DeepSpeed 提升效率,才在合理時間內訓練出這規模的模型。

(Source:微軟

由於 MT-NLG 擁有極多參數,不同自然語言任務都有相當優秀的表現,且除了自然語言,也可做基本數學運算,不只使用記憶算數,未來發展令人期待。微軟 Turing 團隊主管 Ali Alvi 和 Nvidia 產品管理及行銷高級主管 Paresh Kharya 表示,期待 MT-NLG 形塑未來產品,並鼓勵開發者社群探索自然語言處理(NLP)的極限。

(本文由 Unwire Pro 授權轉載;首圖來源:shutterstock)