OpenAI 攜手業界夥伴提出 MRC 協定,解決 AI 運算網路瓶頸

作者 | 發布日期 2026 年 05 月 11 日 18:49 | 分類 AI 人工智慧 , OpenAI , 網路 line share Linkedin share follow us in feedly line share
Loading...
OpenAI 攜手業界夥伴提出 MRC 協定,解決 AI 運算網路瓶頸

OpenAI 與來自 AMD、博通、英特爾、微軟、NVIDIA 的研究人員近日聯手發表一篇新論文,揭露 OpenAI 訓練技術堆疊的內部運作,並推出一項全新的運算網路通訊協定,在關鍵基礎設施層級採行共享標準,有助於更具效率、更可靠地擴展 AI 系統規模,拓展至廣泛的合作夥伴生態系。

新論文介紹一項名為 MRC(Multipath Reliable Connection)的通訊協定,本質上是解決 AI 基礎設施運算網路所面臨得兩大難題:壅塞與故障。隨著 GPU 叢集規模擴大,這兩個問題會越來越難解決。

MRC 仰賴所謂 packet spraying,本質上是將流量分散至網路中的數百條路徑,防止任何單一網路連結出現壅塞。同時降低 GPU 叢集中的「層級」數量,形成更為扁平的網路結構,進而降低資料中心的運算和電力消耗。

處理故障方面,MRC 能在路徑中斷時,在微秒級時間內偵測並重新引導路徑。這讓 GPU 叢集即便在網路部分區段發生故障,也能繼續訓練。

此外,MRC 還與一項名為 SRv6(IPv6 Segment Routing)的通訊協定搭配使用,後者是直接告訴數據應在網路中經過確切路徑,而非強迫網路交換器自行作業,進一步降低這些交換器以及整體資料中心的能源需求。

MRC 已在 OpenAI 和微軟最大規模的訓練叢集投入使用,包括微軟的 Fairwater 資料中心、OCI(Oracle Cloud Infrastructure)的 Abilene 資料中心,也被用於訓練多款 OpenAI 模型。

這項研發 2 年的通訊協定,對 OpenAI 擴展所需運算資源以持續打造規模更大、表現更出色的模型相當重要,這樣的設計方法加速 OpenAI 對於 Stargate 計畫的願景。

傳統大規模 AI 訓練任務對 GPU 叢集而言可說是一個故障放大器,只要一個環節出錯,連鎖效應便會迫使整個流程戛然而止,讓 GPU 處於閒置狀態。此外,網路壅塞也會拖慢研究團隊的創新速度。而 MRC 繞過這些問題,讓 OpenAI 能以更快的速度推動整個研究流程,更充分運用手上所擁有的資源。

MRC 規格目前透過 OCP(Open Compute Project,開放運算計畫)以開放授權的形式釋出。OpenAI 強調此一決定的重要性,並表示這項通訊協定並非 OpenAI 想藉此形成差異化,而是希望帶領整個產業跨越傳統瓶頸。

(首圖為 Oracle Cloud Infrastructure 的 Abilene 資料中心內部運算設施,來源:OpenAI

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》