AI 開發架構終局之戰:CUDA 帝國、Google XLA 聯邦與「第三勢力」的崛起

作者 | 發布日期 2025 年 10 月 03 日 8:30 | 分類 AI 人工智慧 , Google , Nvidia line share Linkedin share follow us in feedly line share
Loading...
AI 開發架構終局之戰:CUDA 帝國、Google XLA 聯邦與「第三勢力」的崛起

2025 年這個 AI 技術爆炸的時代,決定霸權歸屬的戰場,已從矽晶片的物理極限,全面轉移到其上的軟體生態系。當 NVIDIA 的 CUDA 帝國以其深不見底的護城河鞏固江山,Google 以 TPU 與 XLA 編譯器建立起高效的垂直聯邦時,一股「第三勢力」正悄然崛起。以 DeepSeek 為首的頂尖 AI 公司,開始將賭注押在如 TileLANG 這樣的新一代「可攜式性能語言」上,試圖從根本上瓦解硬體綁定的舊秩序。這場三方角力,不僅重新定義了 AI 開發的典範,更將深刻影響從雲端巨頭到台灣半導體產業的未來命運。

NVIDIA 的黃金牢籠:CUDA 帝國的現代化統治

NVIDIA 的市場地位,建立在一套無比強大的正向循環之上:最普及的硬體 (H100, GB200)、最成熟的軟體 (CUDA)、最龐大的開發者社群。這個帝國的核心,是其超過十五年精心打造的軟體生態系,如今它正以更現代化的面貌,延續其統治。

  • CUDA 生態的深度與廣度:CUDA 不僅是一個 API,它包含了 cuDNN(用於深度神經網路)、NCCL(用於多 GPU 通訊)、TensorRT(用於推理最佳化)等一系列工業級函式庫。數百萬開發者投入了數十億小時編寫的程式碼,形成了巨大的轉換成本。
  • Triton 帝國的親民大使:NVIDIA 聰明地擁抱了 Triton。這個由 OpenAI 開源的類 Python 語言,極大地降低了編寫高性能核心(Kernel)的技術門檻。開發者不再需要是 C++ 專家,也能寫出接近手調效能的程式碼。Triton 讓 CUDA 的力量變得更易得,從而吸引了新一代的開發者,鞏固了其在 PyTorch 社群中的核心地位。
  • vLLM 生態內的「樣品屋」:vLLM 的成功,是 CUDA 生態力量的最佳展示。它整合了 PagedAttention 等先進演算法,並使用 Triton/CUDA 核心實現,為主流 LLM 提供了一個「開箱即用」的高性能推理方案。它讓使用者輕鬆享受到生態系的紅利,但也讓他們在不知不覺中,更深地融入了這個生態。

NVIDIA 的策略清晰可見:在維持 CUDA 核心控制權的同時,透過 Triton 和 vLLM 等工具降低使用門檻,將整個開源社群的力量,轉化為鞏固其帝國統治的養分。

Google 的理想國:垂直整合的 XLA 聯邦

Google 則展示了另一種極致的可能性:一個軟硬體深度融合的理想國。這個聯邦的核心理念是,透過一個足夠智慧的中央編譯器,屏蔽底層硬體的複雜性。

  • TPU Pods 的規模化暴力美學:Google 從設計之初就將 TPU 視為巨型計算集群的節點。其 TPU Pods 能將數千顆晶片透過專用高速網路互聯,為訓練千億甚至兆級參數模型提供了無與倫比的線性擴展性與成本效益。
  • XLA:聯邦的智慧大腦:XLA 編譯器是實現這一切的關鍵。它採取「由上而下」的全局最佳化策略,自動分析 PyTorch 或 JAX 程式碼中的計算圖,並執行算子融合(Fusion)等複雜最佳化。這種「信任編譯器」的哲學,將開發者從繁瑣的底層優化中解放出來,專注於模型架構的創新。
  • PyTorch / XLA:務實的外交政策:Google 清楚,單靠 JAX 不足以吸引全世界的開發者。PyTorch / XLA 這座精心打造的橋樑,成為其最重要的外交工具。它讓全球最大的 PyTorch 社群能夠無痛地利用 TPU 的強大算力,這是 XLA 聯邦擴大影響力的務實一步。

Google 的策略,是用極致的硬體規模化和極致的軟體自動化,打造一個高效率、高生產力的封閉花園,並透過 PyTorch / XLA 這扇門,邀請外部世界的居民進來體驗。

第三勢力:DeepSeek 押注 TileLANG 引爆的典範轉移

正當市場習慣了 NVIDIA 與 Google 的雙雄對決時,以 DeepSeek 為代表的新興 AI 巨頭,投下了一顆震撼彈。他們選擇的武器,既不是 CUDA,也非 XLA,而是更具野心的 TileLANG。

何謂 TileLANG?源於卡內基美隆大學(CMU),是一種基於「多面體編譯」(Polyhedral Compilation)理論的領域專用語言。它允許開發者用更抽象、更數學化的方式描述計算過程,然後由編譯器自動生成針對不同硬體的高度優化程式碼。

DeepSeek 的戰略豪賭:DeepSeek 為頂尖的模型開發公司,最新的 MoE(專家混合)架構和自訂算子,對性能和靈活性有著極端的要求。他們選擇 TileLANG 的背後,是深層的戰略考量:

  1. 擺脫硬體綁定:這是最核心的動機。透過 TileLANG 的可攜性,DeepSeek 的模型未來將不再僅限於 NVIDIA GPU,而是有潛力高效地運行在 AMD 晶片,乃至自研或第三方的 ASIC 上。這是對 CUDA 護城河的直接挑戰。
  2. 追求極致性能與創新:對於其複雜的自訂核心,Triton 可能不夠靈活,而 XLA 的自動優化結果可能無法預測。TileLANG 的形式化方法,為他們提供了一個兼具高性能與可維護性的新選擇,來實現前所未有的模型架構。
  3. 掌握軟體自主權:與其依賴 vLLM 等現成方案,DeepSeek 選擇使用 TileLANG 這個更底層的「工具」,來打造自己的推理堆疊。這意味著他們將軟體性能的命脈,牢牢掌握在自己手中。

TileLANG vs. vLLM:工具與產品的抉擇:許多人會問,這是否意味著 TileLANG 將取代 vLLM?這是一個層次上的誤解。

  • vLLM 是一個「產品」:它是一個高度整合、開箱即用的推理服務引擎。
  • TileLANG 是一個「工具」:它是一個用來打造高性能核心的語言和編譯器。

DeepSeek 的選擇,如同一個頂級車隊決定自己設計引擎(使用 TileLANG),而不是直接購買市場上最好的引擎(使用 vLLM)。這代表了更高的技術壁壘和更大的前期投入,但也換來了無可比擬的客製化能力和未來的平台自由度。

開發者的十字路口:三大陣營的戰略抉擇

DeepSeek 的舉動,正式將第三條路擺在了所有 AI 開發者面前。現在的選擇,不再是二選一,而是三方權衡。

可以清晰地看到,2025 年的 AI 軟體戰場已經從過去的「兩強相爭」演變為「三國鼎立」的複雜局面:

  • NVIDIA 陣營依然是商業市場的絕對主流,擁有最龐大的社群和最成熟的工具鏈。
  • Google 陣營則在超大規模訓練和追求開發效率的領域中,憑藉其軟硬整合的優勢佔據了不可替代的生態位。
  • 以 DeepSeek 為代表的第三勢力,則揭示了未來頂尖 AI 公司為擺脫硬體綁定、追求終極靈活性而進行的軍備競賽。他們投資的是未來,賭的是一個硬體可以被軟體自由選擇的時代。

軟體定義硬體時代,台灣的危機與轉機

AI 的發展,正從「硬體定義軟體」的時代,步入「軟體定義硬體」的全新階段。Google 的 XLA 透過 StableHLO 這個開放標準,從上層提供了一個統一的介面;而 TileLANG 等語言,則從底層提供了一種編寫可攜式核心的新方法。這兩股力量,都在試圖打破硬體與軟體之間的壁壘。

對於身處全球硬體供應鏈核心的台灣,這既是危機,也是轉機。

危機:單純的硬體代工和製造優勢,在軟體生態系的權力遊戲中,話語權將逐漸減弱。

轉機

  1. 擁抱主流:CUDA/Triton 依然是未來數年市場上最龐大、最穩定的人才需求,是台灣工程師的「基本盤」。
  2. 佈局雲端:理解 XLA 架構,是協助客戶在 Google Cloud 等平台大規模部署、實現成本效益最大化的關鍵能力。
  3. 投資未來:對於新竹的 IC 設計公司而言,與其從零打造自己的軟體堆疊,不如從一開始就擁抱 StableHLO 或 TileLANG 等開放標準。這將是台灣新一代 AI 晶片能否在全球市場取得成功的關鍵勝負手。

從 CUDA 帝國的持續演化,到 XLA 聯邦的務實擴張,再到 TileLANG 所代表的第三勢力的崛起,這場軟體戰爭的格局已然明朗。最終,能夠駕馭不同軟體典範、實現跨平台價值最大化的企業與人才,才能在這場 AI 終局之戰,立於不敗之地。

(首圖來源:shutterstock)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》