
中國科技巨頭阿里巴巴旗下阿里雲最近發表論文〈Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market〉,介紹 GPU 資源池化管理「Aegaeon」,成功解決大型語言模型(LLM)推理服務 GPU 資源浪費問題。
系統允許高達十個模型共享一顆Nvidia H20 GPU,大幅提升硬體利用率。為期三個月Beta測試,GPU量由1,192張減少至213張,達成82%節省,並同時提高有效輸出(Goodput)1.5~9倍。已用於阿里雲AI平台「百練」,有效降低硬體採購成本,提升服務效率。
阿里雲指出,儘管市場有超過百萬個AI模型,但多數流量集中少數幾個。由於GPU記憶體容量限制,通常每顆GPU只能執行兩三個模型,導致大規模GPU閒置,浪費嚴重。Aegaeon出現,不僅緩解GPU硬體需求,亦對面臨美國制裁晶片供應緊張的局勢產生積極影響。
論文已被頂級學術會議ACM SIGOPS今年第31屆操作系統原理研討會(SOSP)錄用,於系統軟體與AI大模型具前瞻性和實用價值。阿里雲CEO吳泳銘表示,繼續推動全棧AI基建升級,致力成為全球領先全棧人工智慧商,迎接超級人工智慧時代。
業界評論指出,Aegaeon代表阿里雲GPU運用效率重要提升,但類似資源共享其他大型雲端服務商也在進行,未必屬革命性突破。儘管如此,AI模型多樣化和行業特化需求增加,高效GPU資源管理將成為雲端商贏得市場的關鍵。
(首圖來源:阿里雲)