在人工智慧 (AI) 運算需求爆炸性成長的背景下,AI 晶片市場的競爭日趨白熱化。Google 自家研發的張量處理單元(TPU)需求不斷攀升,對 GPU 大廠輝達 (Nvidia) 構成顯著威脅。有報告指出,Nvidia 一個極其忠誠的客戶 Meta 正考慮在其資料中心部署 Google 的 TPU,此消息造成 Nvidia 的股價一度下跌。
面對市場變化,Nvidia 透過社群網絡向 Google 表達了對其 TPU 成功讚美。然而,Nvidia 在其 Newsroom 帳號中表示,我們樂見 Google 的成功,因為他們在 AI 領域取得了巨大的進展,但我們也將持續向 Google 供貨。之後,Nvidia 隨即強調其技術領先地位,聲稱 Nvidia 領先業界整整一代,是唯一可以運行所有 AI 模型,且能應用於所有運算場域的平台。Nvidia 還進一步表示,相較於針對特定 AI 框架或功能設計的專用晶片(ASICs,如TPU),Nvidia 的產品提供了更高的性能、多功能性和可替換性。
儘管 Nvidia 自信滿滿,但 Google 代號 Ironwood 的第 7 代 TPU 仍展現出強勁的競爭力,不僅足以與 Nvidia 的 Blackwell 架構 AI 晶片一較高下,更在規模化上擁有巨大優勢。Nvidia 的機架伺服器通常最多包含 72 個 GPU,而 Google 的 TPU 叢集則可從 256 顆晶片,擴展至多達 9,216 顆晶片。雖然 Nvidia 下一代的 Vera Rubin 加速器速度更快,但 Google 的優勢在於規模化。因此,Google 方面表示,他們正經歷對其客製化 TPU 和 Nvidia GPU 兩者的加速需求成長,並承諾將繼續支持這兩種產品。
目前,Meta 據傳正在洽談從 2027年 開始在自家資料中心部署 Google TPU。如果 TPU 被廣泛採用,理論上可能對 Nvidia 的營收構成威脅。然而,Meta 是否會或甚至能夠選擇 TPU 而非其他競爭平台,目前尚不明確。因為 Google 首先必須打破傳統慣例,在公開市場上銷售 TPU,而非僅像歷史上那樣透過 Google Cloud 進行租賃。
其次,即使 Google 同意出售晶片給 Meta,Meta 仍將面臨重大的系統整合挑戰。Meta 習慣於使用封包交換器,將數百或數千個基於 AMD 或 Nvidia 的 GPU 連接起來。然而,TPU 的部署架構完全不同,它們是透過光電電路交換機(OCS)技術,將晶片連接成大型的環狀網格。OCS與 封包交換機的運作原理截然不同,通常需要不同的編程模型。
更大的挑戰來自軟體層面。Meta 開發的深度學習庫 PyTorch 雖然可以在 TPU 上運行,但 TPU 並不原生支持此框架,Meta 需要應用一個名為 PyTorch/XLA 的轉譯層。即便擁有龐大的軟體開發團隊,Meta 和 Google 當然可以克服這些挑戰。然而,消息人士認為,如果報導中的會談屬實,更可能的場景是 Meta 正在討論針對 Google TPU 對其 Llama 模型家族的推論優化。
事實上,推論工作所需的計算資源,比訓練模型要少一個數量級,且推論受惠於靠近終端用戶以降低延遲並提高互動性。Meta 通常在 Hugging Face 等儲存庫上發布其大型語言模型(LLMs),供客戶下載,並在包括 Google TPU 在內的各種加速器上運行。因此,Meta 需要確保 Llama 在 TPU 上運行良好,以促進企業採用。但若目標僅是推論,企業可以直接從 Google 租用 TPU 來運行 Llama,Meta 本身並不需要擁有這些晶片。
就目前來看,Google 的確觀察到有更多競爭模型建構者對其 TPU 技術產生興趣,其中包括Claude 開發商 Anthropic。Anthropic 先前高度依賴 Amazon Web Services(AWS) 客製化的 Trainium AI 加速器,但現正進行多元化佈局。而且,Anthropic 於 2024 年 10 月宣布,計劃使用多達一百萬顆 TPU 來訓練並服務其下一代 Claude 模型。由於 Google TPU 和 Amazon Trainium 在計算叢集中都採用網格拓撲結構,這降低了 Anthropic 從 GPU 遷移的成本。
Anthropic 的策略並非單一。日前,Anthropic 宣布與 Microsoft 和 Nvidia 建立戰略夥伴關係。該合作包括 Anthropic 承諾購買價值高達 300 億美元的 Azure運 算容量。因此,總體來說,當前 AI 市場的趨勢顯示,所有主要的 AI 參與者都在對沖風險,並與其他各方結成聯盟。Google 的 Ironwood TPU 所帶來的威脅,可能比 Nvidia 願意承認的還要龐大,這代表 AI 加速器市場正進入一個多方競爭、聯盟交錯的時代。
(首圖來源:輝達提供)






