Google 打造新一代 TPU v5p 和 AI 超級電腦,加速 Gemini 模型發展

作者 | 發布日期 2023 年 12 月 07 日 11:54 | 分類 AI 人工智慧 , Google , 晶片 line share follow us in feedly line share
Google 打造新一代 TPU v5p 和 AI 超級電腦,加速 Gemini 模型發展


Google 發表全新 Gemini 模型,同步推出該公司功能最強大的 AI 加速器 Cloud TPU v5p 以及新的 AI 超級電腦。

TPU v5p 是目前 Google 功能最強大且最具成本效益的 TPU(Tensor Processing Unit),每個 TPU v5p pod 由多達 8,960 個晶片組成,使用最高頻寬的 ICI(inter-chip interconnect,高達 4,800 Gbps/chip)進行互連,確保快速傳輸速度和最佳性能。與 TPU v4 相比,TPU v5p 具有兩倍的每秒浮點運算次數(FLOPS)和三倍的高頻寬記憶體(HBM)。

在訓練 AI 模型方面,TPU v5p 在大型語言模型訓練速度較 TPU v4 高出 2.8 倍。對 TPU v5p 每個 pod 的可用 FLOPS 而言,可擴展性比 TPU v4 高 4 倍,Google 為新款 TPU 擠出更多算力。

▲ TPU v4、v5e、v5p 性能比較。(Source:Google Cloud Blog

不只如此,Google 推出 Google Cloud 的 AI 超級電腦,有著突破性的超級電腦架構,採用性能最佳化的硬體、開放軟體、領先業界的機器學習框架和靈活的 AI 模型整合成一整套系統。隨著 Gemini 模型發表,Google 也展示資料中心內搭載 TPU v5p 的 AI 超級電腦,包括 Salesforce 和 Lightricks 等公司已經使用 TPU v5p 的 AI 超級電腦訓練模型。

▲ Google 展示資料中心內搭載 TPU v5p 的 AI 超級電腦。

ChatGPT 的推出推動 AI 高速發展,為了持續開發並提供算力,大型科技公司自行研發解決方案,比方說最新的微軟 Azure Maia 100、亞馬遜 AWS Trainium2,加上 TPU v5p,以最佳化硬體提升處理 AI 工作負載的性能。

TPU 是經過 Google 最佳化調整的 AI 加速器,運用在 Google 搜尋、YouTube、Gmail、Google 地圖、Google Play、Android 等採用 AI 技術的產品,新的 Gemini 模型使用 TPU 進行訓練和服務。TPU v5p 將能加速 Gemini 發展,幫助開發者和企業客戶更快訓練大規模的生成式 AI 模型,進而更早推出全新產品和功能給用戶。

(首圖來源:Google Blog

延伸閱讀: