Google 研發第四代運算加速器,強化 Google 各項服務效能

作者 | 發布日期 2021 年 05 月 19 日 15:30 | 分類 Google , 伺服器 , 晶片 Telegram share ! follow us in feedly


台北時間 19 日凌晨舉辦的 Google I/O 2021,Google 正式宣佈第四代運算加速器(TPU)計畫。Google 表示,第四代運算加速器可在接近紀錄的時間內完成 AI 和機器學習訓練的工作量,對象檢測、圖像分類、自然語言處理、機器翻譯等工作負載方面,第四代運算加速器叢集運算都超越上一代產品。

Google 表示,第四代運算加速器提供的矩陣運算法 TFLOP 是第三代運算加速器兩倍以上,一個 TFLOP 相當於每秒 1 兆個浮點運算。矩陣運算法通常用於 AI 模型的資料運算。受惠於互連技術進步,第四代運算加速器提供明顯記憶體頻寬提升。Google 表示,總體而言,在相同的 64 位元晶片基礎下,不考慮軟體帶來的改善,第四代運算加速器的性能平均要比第三代運算加速器提升 2.7 倍。

Google 運算加速器是加速 AI 運算的專用 ASIC 客製化晶片,採用水冷機制,主要用於機架式伺服器,提供多達 100petaflops 計算能力,進一步強化 Google 產品功能,包括 Google 搜尋、Google 相簿、Google 翻譯、Google 語音助理、Gmail 和 Google Cloud AI API 等。目前第四代運算加速器還處於最後研究階段。

Google 第四代運算加速器的叢集運算架構將有 4,096 個晶片,相互連結頻寬是大多數其他網路技術的 10 倍規模,使 Google 第四代運算加速器叢集運算架構提供超過 exaflop 計算能力,約 1,000 萬台平均運算時脈達最高效能的筆電處理器運算能力。

Google 執行長 Sundar Pichai 在大會主題演講表示,第四代運算加速器計畫對 Google 來說是歷史性的里程碑,因以前要獲得 exaflop 功能,需要客製化超級電腦。但如今在 Google 資料中心中安裝 4 個第四代運算加速器叢集後,許多將以 90% 或接近 90% 的無碳排放方式運行,並提供強大的運算能力。

Google 也提出實際運用案例,採用 ImageNet 資料演算法(ResNet-50 v1.5)進行至少 75.9% 準確度訓練圖像分類任務,Google 全新運算加速 1.82 分鐘內完成 256 個,幾乎與 768 個 Nvidia A100 顯示卡、192 個 AMD Epyc 7742 CPU 及 512 個華為 AI 優化的 Ascend910 晶片,加上 128 個英特爾 Xeon Platinum 8168 處理器組合的速度一樣快。

進行大型維基百科資料庫訓練模型時,第四代運算加速器得分也很高。使用 256 個第四代運算加速器培訓只需 1.82 分鐘,僅比使用 4,096 個第三代運算加速培訓 0.39 分鐘稍長。使用 Nvidia 硬體要達 0.81 分培訓,要 2,048 個 A100 顯示卡和 512 個 AMD Epyc 7742 CPU 達成,可看出 Google 第四代運算加速器的優異性。據 Google 說法,預計 2021 年內就可買到第四代運算加速器服務。

(首圖來源:科技新報攝)