阿里巴巴新論文：GPU 資源節省達 82%

中國科技巨頭阿里巴巴旗下阿里雲最近發表論文〈Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market〉，介紹 GPU 資源池化管理「Aegaeon」，成功解決大型語言模型（LLM）推理服務 GPU 資源浪費問題。

系統允許高達十個模型共享一顆Nvidia H20 GPU，大幅提升硬體利用率。為期三個月Beta測試，GPU量由1,192張減少至213張，達成82%節省，並同時提高有效輸出（Goodput）1.5~9倍。已用於阿里雲AI平台「百練」，有效降低硬體採購成本，提升服務效率。

阿里雲指出，儘管市場有超過百萬個AI模型，但多數流量集中少數幾個。由於GPU記憶體容量限制，通常每顆GPU只能執行兩三個模型，導致大規模GPU閒置，浪費嚴重。Aegaeon出現，不僅緩解GPU硬體需求，亦對面臨美國制裁晶片供應緊張的局勢產生積極影響。

論文已被頂級學術會議ACM SIGOPS今年第31屆操作系統原理研討會（SOSP）錄用，於系統軟體與AI大模型具前瞻性和實用價值。阿里雲CEO吳泳銘表示，繼續推動全棧AI基建升級，致力成為全球領先全棧人工智慧商，迎接超級人工智慧時代。

業界評論指出，Aegaeon代表阿里雲GPU運用效率重要提升，但類似資源共享其他大型雲端服務商也在進行，未必屬革命性突破。儘管如此，AI模型多樣化和行業特化需求增加，高效GPU資源管理將成為雲端商贏得市場的關鍵。

（首圖來源：阿里雲）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

想請我們喝幾杯咖啡？