買不到 H100 GPU?NVIDIA 推租賃 DGX Cloud 提供人工智慧算力

作者 | 發布日期 2023 年 07 月 31 日 10:20 | 分類 AI 人工智慧 , GPU , 半導體 line share follow us in feedly line share
買不到 H100 GPU?NVIDIA 推租賃 DGX Cloud 提供人工智慧算力


外電報導,GPU 大廠輝達 (NVIDIA) 現在正在向那些渴望使用其硬體和軟體的對象,出租其自主研發的人工智慧解決方案。這個被稱之為 「DGX Cloud」 的雲端運算服務將內含其高性能人工智慧硬體,包括目前供不應求的 H100 和 A100 GPU 算力。用戶將能夠藉由輝達自己的雲端基礎設施或甲骨文 (Oracle) 的雲端運算服務來租用該系統。

報導引用輝達 DGX 平台總監 Tony Paikeday 的說法指出,DGX Cloud 在全球都可租用,但受美國出口管制的地區除外。而該雲端運算服務將在輝達的雲端運算基礎設施中提供,其中包括位於美國和英國的 DGX 系統,而 DGX Cloud 也將藉由甲骨文雲端運算服務來提供。

輝達 3 月 GTC 會議首次宣佈了 DGX 雲端運算服務,隨後宣佈推出該服務。日前正式宣布提供該項服務,這是繼該公司發表一系列雲端人工智慧服務之後所宣布的最新計畫。競爭對手 Cerebras Systems 於中東雲端提供商 G42 雲端運算服務安裝人工智慧系統,提供 36exaflops 算力。特斯拉 (TESLA) 也宣佈生產 Dojo 超級電腦,搭載自研 D1 晶片,到 2024 年底可提供 100exaflops 算力。

DGX Cloud 租賃計畫包括使用輝達雲端人工智慧系統,每個伺服器都有 H100 或 A100 GPU 和 640GB GPU 記憶體,可運行 AI 應用程式。輝達目標是像工廠運行人工智慧基礎設施,輸入數據材料後,輸出資料使用者可使用的可用資訊,更不用擔心軟體和硬體效能不足。

Paikeday 強調,DGX Cloud 滿足關鍵需求,就是大型複雜生成式人工智慧訓練模型的多節點訓練專用計算,企業還將獲得深厚的技術專業知識,部署支援此類工作環境。DGX Cloud 租賃價格為每月每個應用 36,999 美元,約是微軟 Azure ND96asr 兩倍。微軟 Azure ND96asr 配備 8 個 Nvidia A100 GPU、96 個 CPU 內核和 900GB RAM,每月費用為 19,854 美元,DGX Cloud 基本價格包括 AI Enterprise 軟體,提供大型語言模型和工具開發 AI 應用程式。

DGX Cloud 租賃還有 Base Command Platform 軟體介面,以便公司管理和監控 DGX Cloud。Oracle Cloud 有高達 512 個輝達 GPU 叢集,每秒 200GB RDMA 網路,支援多系統(如 Lustre)。相較 DGX Cloud,雖然大型雲端運算服務供應商都有建置 Nvidia H100 和 A100 GPU,但與 DGX Cloud 不同,僅自行訓練人工智慧模型,並不提供客戶使用。

Google 今年稍早發表 26,000 個 Nvidia H100 Hopper GPU 的 A3 超級電腦,規格類似輝達 DGX Superpod,跨越 127 個 DGX 節點,每個節點配備 8 個 H100 GPU。亞馬遜 AWS EC2 UltraClusters 系統也採用 H100 GPU。

各界對輝達人工智慧硬體需求大增,因急於用生成式人工智慧發展各種領域。OpenAI ChatGPT 以聊天機器人展示人工智慧多強大,醫療保健、保險和金融等市場都出現新應用。Paikeday 指出,輝達希望 DGX Cloud 吸引更多生成式人工智慧客戶和業務上雲。

(首圖來源:NVIDIA)