Google Ironwood TPU v7 已成為業界首款足以挑戰輝達(NVIDIA)Blackwell GPU 的專用客製化晶片(ASIC)。這項重大事件吸引了業界對Google TPU 設計流程及其合作夥伴的密切關注,特別是與國內IC設計大廠聯發科的合作。其中,聯發科也正將其在此次合作中獲得的經驗,轉化為其手機行動處理器的實質效率提升,預計將從即將推出的天璣 (Dimensity) 9600行動處理器開始,使得市場也特別期待。
挑戰輝達的Ironwood TPU v7 的卓越性能與架構
業界對 Google Ironwood TPU v7 的熱烈關注,源自於其在 AI 工作執行上的高效能和低成本優勢。Google的這款新 TPU 在推論(inferencing)任務方面極具競爭力,特別是在產業正從大型基礎 AI 訓練模型轉向推論任務的重要性日益增加之際。事實上,TPU v7 Ironwood 在提供與輝達最新 GPU 幾乎不相上下的性能的同時,但卻還擁有更低的總體擁有成本(TCO)。

TPU v7 Ironwood 採用先進的雙晶片(dual-chiplet)設計。每個晶片包含以下關鍵組成部分,這些設計均針對 AI 運算最佳化:
1. TensorCore:採用脈動陣列(systolic array)架構,用於高效的矩陣乘法運算。矩陣乘法構成了 AI 工作執行的基礎,包括神經網路的訓練與推論。該設計透過大幅減少對高頻寬記憶體(HBM)的記憶體讀寫次數,來實現高效率。
2. 向量處理單元(VPU):處理 AI 模型所需的通用、元素級操作,例如啟動函數(如 ReLU)和常規化(normalizations)。
3. 矩陣乘法單元(MXU):專門處理矩陣乘法運算。
4. 兩個SparseCores:用於高效處理需要不規則、數據依賴性記憶體存取的用例。這包括處理被稱為嵌入的超大數學結構,嵌入是將大型分類特徵值(如詞彙表)轉化為較小、密集向量表示的關鍵 AI 步驟。
記憶體與互連方面,TPU 搭配 96 GB 的高頻寬記憶體(HBM)。雙晶片間透過晶片到晶片(D2D)互連技術連接,其速度比線型晶片間互連(ICI)鏈路快 6 倍。基本的晶片配置被稱為立方體(cube),這些晶片透過 ICI 連接,為每個晶片提供 1.2 TB/s 的雙向 ICI 頻寬。多個立方體進一步透過光學電路開關(OCS)網路連接,組成一個巨大的超級Pod,該超級Pod 由 9,216 個晶片和 144 個立方體組成。
聯發科的角色:I/O 模組設計與 40 億美元潛在收益
聯發科設計 Google TPU v7 Ironwood 扮演重要角色。3 月外流報告,Google 委託聯發科設計 Ironwood 輸入輸出(I/O)模組,以便處理器與周邊設備通訊。這合作模式代表 Google 近年策略轉變。前幾年 Google 設計下 TPU 整體架構通常與博通(Broadcom)合作。聯發科這次參與設計 I/O 模組,顯示實力受 Google 認可。
外資瑞銀(UBS)報告預估,聯發科有望透過這次與 Google 合作下代 TPU,獲高達 40 億美元收益。
聯發科經驗傳承為天璣 9600 效能醍醐灌頂
儘管 ASIC(如 Ironwood TPU)與天璣 9600 這樣的行動應用處理器(AP)設計目標本質不同,聯發科仍能將從 TPU v7 Ironwood 學到的經驗,轉化為其行動晶片的數項精進的技術,從而顯著提升天璣 9600 效率。
這些改進集中電源管理和功耗控制策略,包括更高效的功率閘控(Power Gating)策略。聯發科將能制定更高效的功率閘控策略,讓 AP 在不使用特定 I/O 區塊時,能更積極地關閉。另外,改進電壓調節(Voltage Scaling)。透過改進電壓調節,允許 AP 消耗最有效率的電壓量,進而優化晶片的功耗指標。最後是時脈閘控(Clock-Gating)調整。聯發科透過調整現有的時脈閘控策略,以改善下一代晶片的電池續航力,並爭取更積極的功耗預算。
這些效率上的微調對於聯發科的行動 AP 產品至關重要,特別是因為聯發科已在其行動 AP 架構中取消了效率核心(efficiency cores)。此外,聯發科據報也在開發自己的 AI 晶片,屆時其在 TPU 方面的經驗將具有更高的直接相關性。
(首圖來源:科技新報攝)






