阿里巴巴新論文:GPU 資源節省達 82%

作者 | 發布日期 2025 年 10 月 21 日 18:20 | 分類 AI 人工智慧 , GPU , 能源科技 line share Linkedin share follow us in feedly line share
Loading...
阿里巴巴新論文:GPU 資源節省達 82%

中國科技巨頭阿里巴巴旗下阿里雲最近發表論文〈Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market〉,介紹 GPU 資源池化管理「Aegaeon」,成功解決大型語言模型(LLM)推理服務 GPU 資源浪費問題。

系統允許高達十個模型共享一顆Nvidia H20 GPU,大幅提升硬體利用率。為期三個月Beta測試,GPU量由1,192張減少至213張,達成82%節省,並同時提高有效輸出(Goodput)1.5~9倍。已用於阿里雲AI平台「百練」,有效降低硬體採購成本,提升服務效率。

阿里雲指出,儘管市場有超過百萬個AI模型,但多數流量集中少數幾個。由於GPU記憶體容量限制,通常每顆GPU只能執行兩三個模型,導致大規模GPU閒置,浪費嚴重。Aegaeon出現,不僅緩解GPU硬體需求,亦對面臨美國制裁晶片供應緊張的局勢產生積極影響。

論文已被頂級學術會議ACM SIGOPS今年第31屆操作系統原理研討會(SOSP)錄用,於系統軟體與AI大模型具前瞻性和實用價值。阿里雲CEO吳泳銘表示,繼續推動全棧AI基建升級,致力成為全球領先全棧人工智慧商,迎接超級人工智慧時代。

業界評論指出,Aegaeon代表阿里雲GPU運用效率重要提升,但類似資源共享其他大型雲端服務商也在進行,未必屬革命性突破。儘管如此,AI模型多樣化和行業特化需求增加,高效GPU資源管理將成為雲端商贏得市場的關鍵。

(首圖來源:阿里雲)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》