過去 20 多年,運算性能的提升受惠於摩爾定律的擴展,性能成長達到了 60,000 倍。然而,同一時期內,I/O 頻寬僅成長了 30 倍。當下,如何將高頻寬互連擴展到單個機架之外,這是輝達 (NVIDIA) 以及其他廠商都面臨的挑戰。
根據產業分析公司 LightCounting 的分析指出,將 GPU 叢集從 36~72 個晶片,擴展到 5,00~1,000 個晶片是加速人工智慧 (AI) 訓練的最佳選擇。因此,在未來 3 年內,即使是推理叢集也可能需要多達 1,000 個 GPU 才能支援更大的模型。共同光學封裝技術 (CPO,Co-Packaged Optics) 可能是在 4~8 機架系統中可提供數萬個高速互連器件的唯一選擇。
目前,資料中心在資料傳輸中已廣泛依賴光學技術,不過,對於小於 2 公尺的互連,光學技術的應用仍較少。雖然傳統的可插拔光學可做為過渡技術,但其頻寬成長速度遠低於資料中心流量的成長速度,應用需求和傳統可插拔光學技術能力之間的差距不斷加大,這一趨勢是不可持續的。
所以,共同光學封裝技術(CPO)做為一種顛覆性技術,可以透過先進的封裝技術和電子光子協同優化,極大化縮短電氣連接路徑,進而提高互連頻寬密度和能效。因而,CPO 也被譽為 AI 時代的關鍵互連技術之一。LightCounting 就預期,到 2029 年之際,CPO 介面的出貨量將從目前的不到 5 萬個,成長到超過 1,800 萬個,其中大多數介面都將應用於伺服器內的連接。
也因為這樣的未來發展性,使得科技大廠都準備投入躍躍欲試。而目前包括博通、Marvell、IBM 等三大科技廠可以說是在 CPO 領域發展較快的廠商。
博通 CPO 技術加快商業化腳步
先前媒體報導,台積電矽光子戰略取得重大發展,近期已經達成 CPO 與先進半導體封裝技術的整合,預計 2025 年初開始樣品交付,包括博通和 NVIDIA 將成為台積電該解決方案的首批客戶。其中,台積電與博通聯合開發的微環調製器(MRM)近期已通過 3 奈米製程的試產,為頂級 AI 晶片整合到 CPO 模組奠定基礎,預計台積電將採用其 CoWoS 或 SoIC 先進封裝來生產,此消息也說明 CPO 技術已從研發階段,推進到量產化階段,1.6T/mm 光傳輸時代正加速到來。
▲ 業界首款 51.2 Tbps 的 CPO 以太網交換器 Bailly。
事實上,2024 年 3 月,博通已向小部分客戶交付了業界首款 51.2 Tbps 的 CPO 以太網交換器 Bailly。該產品整合了 8 個採用矽光子的 6.4-Tbps 光學引擎和 Broadcom 的 StrataXGS Tomahawk5 交換機晶片。與可插拔交換器解決方案相比,Bailly 使光學互連的運行功耗降低了 70%,矽面積效率則是提高了 8 倍。
Marvell 藉 XPU 架構正式整合 CPO 搶進資料中心市場
至於,Marvell 在收購 Inphi 之後,大大加強了在光通信和資料中心領域的研發能力。自 2017 年以來,Marvell 開始為全球頂級超大規模資料中心提供矽光子設備,並成功將其應用於 COLORZ 資料中心互連光學模組上。這一技術已獲得多個產業領先的資料中心的認證,並達到大規模生產的程度。截至目前,Marvell 的矽光子設備已累計超過 100 億小時的現場運行時間。而作為矽光子技術發展的下一步,Marvell 正重點佈局共封裝光學(CPO)技術,這是公司在下一代互連技術發展中的關鍵一步。
2025 年 1 月 6 日,Marvell 宣布,其下一代客製化 XPU 架構將採用 CPO 技術,如此使得 AI 伺服器的規模從目前使用銅互連的機架內數十個 XPU,擴展到使用 CPO 的多個機架中的數百個 XPU,這代表著 AI 伺服器的運算能力可以在更大範圍內得到提升,同時保持低延遲和高效的能耗表現。
▲ 使用 CPO 的下一代客製化 AI 加速器 XPU。
Marvell 指出,下一代客製化 AI 晶片 XPU 架構將使用高速 SerDes、die-to-die 晶片介面和先進封裝技術,把 XPU 計算晶片、HBM 和其他晶片與 Marvell 3D SiPho 引擎整合在同一基板上。這種方法無需電信號離開 XPU 封裝後進入銅纜或穿過印刷電路板,在 CPO 利用高頻寬矽光子光學引擎來提高資料進出量的情況下,與傳統銅連接相比,矽光子引擎可提供更高的資料傳輸速率,並且不易受到電磁干擾。這種整合還透過減少對高功率驅動元件、中繼器和重定時器的需求來提高電源效率。
借助整合光學元件,XPU 之間的連接可以達成更快的資料傳輸速率和比電纜長 100 倍的距離,這可以在 AI 伺服器內跨多個機架的擴展連接,並具有最佳延遲和功耗。而透過更長距離和更高密度的 XPU 到 XPU 連接,CPO 技術促進了高性能、高容量擴展 AI 伺服器的開發,進而優化了下一代加速基礎設施的計算性能和功耗。
而 Marvell 的此次宣布無疑是顯示出 CPO 已經逐漸被 XPU 廠商認可。尤其,Marvell 前不久才與全球雲端服務供應商龍頭亞馬遜 AWS 簽署 5 年合作協議,供應亞馬遜 AWS 客製化 AI 晶片。隨著 Marvell AI 客製化晶片整合 CPO 步伐的加快,預計 CPO 的應用和部署將大大提速。
IBM 透過新技術發展加快 CPO 推進
最後,隨著日前藍色巨人 IBM 宣布,其研究人員開創了一種新型的 CPO 技術,在全新的 CPO 原型使用聚合物材料來引導光學,而不是傳統的採用玻璃的光纖的方式,使得這樣新的高頻寬密度光學結構能與每個光通道傳輸的多個波長相結合,可以將晶片之間的頻寬提高到電氣連接的 80 倍。
這項 IBM 的技術研究論文報告了成功設計和製造採用 50 微米間距聚合物波導介面的光學模組,這些模組經過整合優化,能夠達到低損耗、高密度的光數據傳輸,並在矽光子晶片上占據極小的空間。該原型模組符合 JEDEC 可靠性標準,並承諾將晶片邊緣可連接的光纖數量,也就是所謂的「海濱密度」提高 6 倍,超越了當前最先進技術的水準。聚合物波導的可擴展性,使其能夠縮小至小於 20 微米的間距,預計將使頻寬密度提升至 10 Tbps/mm 以上。
▲ IBM CPO 模組測試載體。
根據 Weight&Biases 的報導,在使用 GPU 訓練時,網路經常成為瓶頸,導致三分之一的用戶平均利用率不足 15%,這無疑的增加了成本和能耗。對於參數超過十億的模型,在 8,000 個 H100 GPU 上訓練大約需要 3 個月。根據估算,訓練一個 GPT-4 模型可能消耗 50 千兆瓦時的電力。此外,國際能源署(IEA)計算出,2022 年資料中心消耗了 460 太瓦時的電力,占全球電力需求的近 2%,預計這一數字到 2026 年將翻倍。
而 IBM 的全新的 CPO 技術有望顯著提高資料中心通訊的頻寬,減少 GPU 空閒時間,同時大幅加速 AI 處理過程。根據這一創新研究,未來 CPO 技術可帶來更低的生成式 AI 擴展成本。例如相比中等距離電氣互連,CPO 可減少超過 5 倍的能耗,同時將資料中心互連電纜的傳輸距離從 1 米距離延伸至數百米。
另外,透過 CPO 技術,開發者能夠將大型語言模型(LLM)的訓練速度提高至常規電氣線路的 5 倍,預計訓練一個標準 LLM 的時間可從三個月縮短至三週,性能提升會隨著使用更大模型和更多 GPU 而進一步增強。如此,在每訓練一個 AI 模型,CPO 技術將節省相當於 5,000 戶美國家庭年用電量的能量。
現階段,IBM 還在努力開發下一代測試載體,採用子 20 μm 間距的光波導、增加的波導通道、增加的多波長(λ)相容硬體展示,並提供多個層次的光纖連接器/連接器組裝選項,以適用於 CPO 模組。針對這一未來節能硬體展示的模型和模仿表現,預計該技術能夠支援更高的頻寬密度。然後借助改進的能源效率,提升未來生成性 AI 應用和其他計算應用的性能,IBM 也計劃在 2025 年初發佈更多詳細的 CPO 資訊。
(首圖來源:Pixabay)
立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!
]]>