Google 第七代 Ironwood TPU 亮相，算力進階、Pod 最高配置 9,216 顆晶片

Google 9 日舉行 Google Cloud Next 25 大會，專為 AI 量身打造的加速器 TPU（Tensor Processing Unit）來到第七代「Ironwood」，每顆晶片在高峰可提供 4,614 TFLOPS 運算能力，驅動思考型（thinking）和推論型（inferential）模型，是 Google 第一款專為推論所設計的 TPU。

在 TPU 效能大幅提升的同時，Google Cloud 也注重其能源效率。相較 2024 年推出的第六代 TPU「Trillium」，Ironwood 效能功耗比是 Trillium 的 2 倍。身處可用電力成為 AI 發展受限因素之一的現代，Google Cloud 為客戶的工作負載提供每瓦更多的運算能力。Ironwood 結合先進的液冷解決方案和晶片設計最佳化，即使持續面對繁重 AI 工作負載，也能維持較標準氣冷高出近 2 倍的效能。

Ironwood 大幅增加高頻寬記憶體（HBM）容量，每顆晶片提供 192GB 容量，是 Trillium 的 6 倍，可處理更大型的模型和資料集運算，減少頻繁的資料傳輸需求，提升整體效能。

HBM 頻寬大幅提升下，Ironwood 單顆晶片可達 7.2Tbps，是 Trillium 的 4.5 倍。如此高速的頻寬可確保資料快速存取。

Google Cloud 也強化 Ironwood 晶片間互連（Inter-Chip Interconnect，ICI）頻寬，雙向傳輸提高至 1.2Tbps，是 Trillium 的 1.5 倍，如此一來加速晶片間的通訊，提升大型分散式訓練和推論的效率。

▲ TPU 近代產品比較。

Ironwood 根據客戶對 AI 工作負載的需求提供 2 種規模配置，分別是 256 顆晶片、9,216 顆晶片的配置。

當擴展至每個 Pod 達到 9,216 顆晶片時，總運算能力可達 42.5 exaFLOPS（exa 為 10¹⁸），是世界上最大的超級電腦 El Capitan 的 24 倍以上，El Capitan 每個 Pod 僅提供 1.7exaFLOPS。由於 Ironwood 提供大規模運算能力，能夠支援最嚴苛的 AI 工作負載，例如用於訓練和推理、具備思考能力的超大型密集 LLM 或 MoE。

Ironwood 還配備增強版「SparseCore」，這是一種專門用於處理進階排序和推薦系統工作負載常見的超大規模嵌入加速器。此外，Google DeepMind 開發的機器學習執行階段架構「Pathways」，可在多個 TPU 間達成高效的分散式運算。Google Cloud 上的 Pathways 讓客戶輕易超越單個 Ironwood Pod 的限制，將數十萬顆晶片組合在一起，快速推進 AI 發展。

AI 晶片競爭激烈之際，NVIDIA 仍處於領先地位，除 Google 外，亞馬遜和微軟等科技巨頭都在發展自家的解決方案，亞馬遜擁有 AWS Trainium / Inferentia 晶片以及 Graviton 處理器，微軟則有 Azure Maia 100 / Cobalt 100 晶片。現在 Ironwood 加入 TPU 陣容，繼續強化 Google Cloud 服務。

（圖片來源：Google Blog）