花了 100 多億美元建 AI 模型,微軟又豪擲數億美元投資專用硬體

作者 | 發布日期 2023 年 03 月 22 日 7:40 | 分類 AI 人工智慧 , Microsoft , 網路 line share follow us in feedly line share
花了 100 多億美元建 AI 模型,微軟又豪擲數億美元投資專用硬體


玩得起 AI 解決方案的非頂級大公司莫屬,因不但要花大錢投資 AI 模型,還要投巨資開發硬體,以完美支援 AI 模型訓練,以及與自家應用服務整合最佳化與商業化。 

2019 年微軟手捧 10 億美元資金與 OpenAI 初次合作,已視為科技界押對寶的最佳典範。今年 1 月微軟再接再厲又增加 100 億美元挹注,讓微軟進入備受矚目的 AI 領導廠商行列,伴隨而來的亮麗股市表現無疑是獲市場正面肯定的證明。

但 ChatGPT 必須運行於微軟資料中心耗費巨資部署的 Azure 硬體,才能順利完成 AI 模型訓練,以及與自家 Bing、Github Copilot 及 Microsoft 365 Copilot 最佳化整合。雖然微軟並未正面透露 Azure 硬體投資金額,但彭博社(Bloomberg)13 日報導指,微軟已花費「數億美元」訓練 ChatGPT 專用硬體。

微軟也在 13 日發表兩篇官方部落格文章詳述如何打造專門運行 ChatGPT 的 AI 基礎設施,以為 Bing 服務核心。隨著 ND A100 v4 虛擬機(建立於 Nvidia A100 GPU 專供 AI 處理作業)進駐,微軟資料中心又再導入基於更新硬體(並未透露到底有多少硬體)的 ND H100 v5 虛擬機,支援 8 到數千顆 Nvidia H100 GPU 等各尺寸虛擬機,明顯加速 AI 模型性能。

全新虛擬機支援透過 NVSwitch 和 NVLink 4.0 互連的 Nvidia H100 Tensor Core GPU、400gb/s Quantum-2 CX7 InfiniBand 聯網,以及具 PCIe Gen5 互連和 DDR5 記憶體的第四代 Intel Xeon 可擴充處理器。

另一篇文章微軟談到如何與 OpenAI 合作,協助打造 ChatGPT 模型超級電腦,以連 Nvidia 都沒想過的新方式將數千顆 GPU 連接。為了獲最佳效能,微軟憑更新累積的經驗大量最佳化系統。

總之,Azure 基礎設施針對模型的訓練最佳化,但整個 AI 平台花了好幾年才逐步改善。Bing AI 背後集結數量龐大且分散全球 60 個 Azure 區域的無數 GPU、網路硬體和虛擬化軟體。目前 ND H100 v5 虛擬實例適用預覽版,最終成為 Azure 產品組合的標準成員,但並未透露時程。

(首圖來源:微軟