2025 OCP 高峰會》乙太網是 Scale-Up 關鍵技術!博通推業界首款 800G AI 乙太網 NIC

作者 | 發布日期 2025 年 10 月 15 日 12:54 | 分類 AI 人工智慧 , 伺服器 , 網路 line share Linkedin share follow us in feedly line share
Loading...
2025 OCP 高峰會》乙太網是 Scale-Up 關鍵技術!博通推業界首款 800G AI 乙太網 NIC

隨著 2025  OCP 高峰會(2025 OCP Global Summit)來到第二日,身為 OCP 重要廠商的博通也發表主題演講,以「人工智慧擴展的網路架構」(Networking for AI Scaling)為題,強調乙太網(Ethernet)的重要性,表示除了用於水平擴展(Scale-Out),在垂直擴展(Scale-Up)上也是不二選擇。

談到乙太網的優勢,博通資深副總裁暨核心交換器事業群總經理 Ram Velaga 指出,它具有開放性(open)、互通性(interoperable)、可組合性(composable)的生態系與技術基礎,因為沒有專有技術束縛,可以讓各企業按自身合適的方式進行設計。

近期有間公司宣布三項資料中心計畫,相信很多人都疑惑,為何要蓋這麼多資料中心、投入這麼多電力?Velaga 指出,原因是機器學習和人工智慧的本質就是一種「分散式運算系統」(Distributed computing system),沒有一顆 XPU 的規模足以單獨處理所需的工作負載,必須將多個 XPU 連結、協作,這正是「網路」發揮關鍵作用之處,而「網路」就是「電腦」(The network is the computer.)。

由於乙太網開放、具韌性且經濟實惠,不管是 Scale-UpScale-Out 還是 Scale-Across(跨資料中心擴展),乙太網都是能同時覆蓋這三個層面的網路技術。

Scale-Up 是什麼?為何乙太網適合 Scale-Up

Scale-Up 是確保當有多顆 XPU 時,其中一顆 XPU 上的 HBM 能被其他 XPU 存取。每一顆 XPU 與其連接的 HBM 之間的頻寬大約是 40Tb/s,因為通常搭載 4 HBM、每顆速度約 9.6Tb/s;未來每顆 XPU 擁有 8 HBM,每顆約達 12.8Tb/s,總頻寬可達 100Tb/sVelaga 解釋,當兩顆 XPU 要互通資料時,網路傳輸時就需要非常高的頻寬,這正是 Scale-Up 最關鍵的要素之一,目前已經有 ESUNEthernet for Scale-Up Networking)聯盟,相信乙太網的開放性會在這部分帶來很大的差異。

隨著越來越多間公司需要採購 XPU,若僅依賴單一供應商,將面臨壟斷狀況,因此需要異質生態系,讓不同公司開發自家 XPU,各自擁有工程團隊、專利創新,才能持續推動技術發展。

Velaga 表示,非乙太網技術會試圖定義 XPU 內部如何運作與連接,而乙太網則是在設計上有明確分界,即「 XPU 運作與網路層運作分離(decouple)」,一邊是 XPU 內部運作,一邊是乙太網的網路層處理。

如此一來,各家公司可自由發揮創新,按自身合適方式進行擴展,思考如何調度流量(traffic scheduling)、處理記憶體語意(memory semantics)以及設計上層軟體層。在這些設計下,底層的乙太網則維持簡單與標準化,一切基於現有標準和既有規範,沒有「專有」(proprietary) 的東西。目前許多公司也有共識,決定攜手合作,推動乙太網成為 Scale-Up 網路的核心技術。

博通推業界首款 800G AI 乙太網路 NIC

除了晶片與硬體外,軟體支援也是乙太網 Scale-Up 相當重要的一環。Velaga 指出,OCP 已成立一個工作小組,確保用於乙太網 Scale-Up 的軟體能開發和使用。這套軟體是 SONiC 的一個版本。

至於成本方面,相比建造十萬顆 GPU 叢集的成本至少要 30 億美元,建構同等規模的乙太網路,成本可能低於一億美元(不含纜線與網路介面卡 NIC)。而當乙太網路交換器的頻寬提升至 100 Tb/s 時,反而能使網路層級精簡,能降低網路壅塞、減少光模組和交換器數量、降低整體網路延遲,進而大幅縮短任務完成時間。

針對乙太網是否低延遲,Velaga 則表示乙太網能建構全球最低延遲的互連網路,且可突破實體機櫃與銅線長度的限制,能橫跨多排機櫃、甚至跨資料中心運作的網路技術,其中一個關鍵是不斷提升乙太網交換器的頻寬能力,也因此,博通力拚平均每 18~24 個月交換器頻寬倍增。

目前博通已經進入第三代 CPO 技術,其交換器平台不僅支援自家 CPO,也支援合作夥伴(如 NTT)開發的共封裝光學模組。同時,博通也在這次 OCP 高峰會中發表「Thor Ultra」晶片,是業界首款真正的 800Gb NIC 產品。

該產品支援兩種不同的外型規格,無論 8x100G 還是 4x200G,都符合 Ultra Ethernet 標準,並專注於強化 RDMA(遠端直接記憶體存取)技術,包含多封裝傳輸(Multi-packing)、亂序資料放置(Out-of-order placement)、選擇性重試(Selective retries)等特性,都是建構數十萬 GPU 叢集以實現 RDMA 擴展規模所必需的要素。而這款產品能夠連接到任何品牌的乙太網交換器、使用任何廠牌的纜線,或者搭配任何 XPU,效能都不會受影響。

(圖片來源:科技新報)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》