搭載 Nvidia H100 GPU,Google 推出 A3 超級電腦虛擬機器

作者 | 發布日期 2023 年 05 月 11 日 17:27 | 分類 AI 人工智慧 , Google , GPU line share follow us in feedly line share
搭載 Nvidia H100 GPU,Google 推出 A3 超級電腦虛擬機器


近來大型語言模型和生成式 AI 興起,需要大量算力訓練模型、運算 AI,為此 Google 在開發者大會上發表 A3 超級電腦虛擬機器(virtual machine,VM)。

「A3 GPU VM 專為現今機器學習工作負載提供最高性能的訓練,配備最新 CPU、改善的主機記憶體、下一代 Nvidia GPU 以及主要網路升級」,Google Cloud 官方部落格文章指出,新的虛擬機器配備 Nvidia H100 GPU,能與專門的資料中相互結合,以獲得高吞吐量和低延遲的龐大算力。

A3 VM 的關鍵規格包括 8 個具 Nvidia Hopper 架構的 H100 GPU、第 4 代 Intel Xeon 可擴展處理器、2TB 主機記憶體,及在 8 個 H100 GPU 之間透過 Nvidia NVSwitch 和 NVLink 4.0 達到 3.6TB/s 對等頻寬。

A3 VM 可以提供高達 26 exaFlops 的運算功率,應有助於訓練更大型的機器學習模型,並減少訓練時間和成本。更重要的是,這些虛擬機器的工作負載在 Google Cloud 專門的 Jupiter 資料中心網路架構中運行。

Google Cloud 將以幾種方式提供 A3 VM,包括客戶自己運行,或者將其做為託管服務,Google 會為他們處理大部分繁重的工作。客戶自己動手運行 A3 VM 涉及了 Google Kubernetes Engine(GKE)和 Google Compute Engine(GCE),而採取託管服務是在 Google 的全託管機器學習平台 Vertex AI 上運行 A3 VM。

A3 VM 可為 Google Cloud 客戶提供龐大算力,滿足更高的工作負載,無論是涉及複雜的機器學習模型還是運行生成式 AI 背後的大型語言模型,皆能帶來成本效益。

(首圖來源:Nvidia)