GTC Taipei》黃仁勳：全新 Vera Rubin 與 Vera CPU，將成推動運算革命核心引擎

輝達（NVIDIA）在GTC Taipei上正式介紹全新 Vera Rubin 系統，表示這是一套專為「代理型 AI（Agentic AI）」時代量身打造的多機櫃叢集規模超級電腦，並已全面投入生產。輝達執行長黃仁勳強調，AI 代理（Agents）將是電腦科學的最新突破，而 Vera Rubin 與同步發表的全新架構 Vera CPU，將成為推動這場運算革命的核心引擎。

黃仁勳指出，過去的晶片與系統大多是為「人類使用者」所設計，但在未來的代理型系統中，AI 代理處理事務與存取資料的耐心極低，運算單位將從「秒」縮短至「奈秒（nanoseconds）」。每一次代理呼叫工具或存取資料庫時，都需要極低的延遲與極高的互動性。

為此，Vera Rubin 系統應運而生，整合了當今最頂尖的硬體配置，包含：台積電（TSMC）3 奈米製程、CoWoS 封裝以及 HBM4 記憶體。另外，該系統還具備多項強大組件，包括Vera Rubin NVL72負責提示（prompt）與上下文理解、推理及規劃。Gro LPX 系統以極低的延遲生成詞元（tokens），與 NVL72 搭配達到最高吞吐量。Vera Bluefield 4 STX專掌記憶體、儲存處理與晶片內建安全防護。

至於，Spectrum X Ethernet：全球首款配備 200GB 共同封裝光學元件（CPO）的乙太網路交換器。整個 Vera Rubin 系統捨棄了傳統排線，採用全新的 PCB 中板設計與液冷技術，大幅提升了 AI 工廠規模的可靠度與韌性，過去需要兩小時組裝的流程現在僅需 5 分鐘。

而全新 Vera CPU 則是打破傳統 x86 瓶頸在代理型 AI 的架構中，CPU 扮演著指揮家（conductor）的角色，負責調度與啟動工具，而 GPU 則是整個樂團。然而，傳統為人類設計的 x86 CPU 專注於將核心切分出租，如今已成為拖累 GPU 效能與權杖吞吐量的瓶頸。

為解決此痛點，因此輝達從零開始打造了專為 AI 代理設計的 Vera CPU。它具備四大核心優勢：

1.極高的單執行緒效能（IPC）：每個時脈可擷取、解碼並執行 10 個指令，確保極短的處理延遲與強大的單執行緒效能。

2.突破性的核心頻寬：率先採用 LPDDR5X 記憶體，頻寬高達 1.2 TB/s，並且是首款支援 PCIe Gen 6 的 CPU。

3.卓越的整體系統互連：具備高達 3.6 TB/s 的光速互連架構（Scalable coherency fabric），所有核心在單一網格上運作，無需跨越晶片邊界，核心間通訊速度比傳統 CPU 快 50%。

4.極致的能源效率：在提升效能的同時大幅降低能耗，使資料中心能在不排擠 GPU 生成權杖所需電力的情況下，部署更多 CPU。

實測數據顯示，Vera CPU 能使峰值記憶體延遲較 x86 架構降低 40%，在 AI 代理沙盒（sandbox）執行效能上更帶來 1.8 倍的提升。在實際企業工作負載上，Vera CPU 展現了驚人的效能突破。在執行全球廣泛使用的 SQL 資料庫引擎時，速度提升高達 3 倍。此外，輝達與紐約證券交易所（NYSE）合作進行的即時串流處理測試中，Vera CPU 的處理效能更達到了傳統的 6 倍之多。輝達預期，未來 AI 代理的數量將達到數十億，遠超過全球人口，這將開啟一個比過去更加龐大的「代理專用 CPU」全新市場。

輝達預測，每家公司都將成為一家代理公司，並且都需要專屬的作業系統來安全地運行 AI 代理。為此，輝達推出了企業 AI 代理工具包（NVIDIA agent toolkit for enterprise AI），包含四大基礎架構，包括模型（Models），可修改的輝達開源大型語言模型。整合框架（Harness），例如高度安全的開源框架 Open Shell，能確保企業內部的隱私、權限與身分安全，目前已獲 Red Hat、Canonical 與微軟等企業採用。工具（Tools），提供如 CUDA X 函式庫等專業技能工具，供代理調用。以及執行環境（Runtime），針對 NVIDIA AI 平台全面最佳化，支援雲端、地端及裝置端運行。

目前，輝達已將此生態系應用於其最核心的晶片設計領域，透過與 Cadence 合作，成功打造出能協助處理 RTL 與架構圖的「晶片設計超級代理」。

(首圖來源：視訊截圖)