Arm 運算平台助力 Llama 3.2 LLM,實現 AI 推論加速與擴展

作者 | 發布日期 2024 年 09 月 26 日 15:32 | 分類 Facebook , IC 設計 , 晶片 line share Linkedin share follow us in feedly line share
Arm 運算平台助力 Llama 3.2 LLM,實現 AI 推論加速與擴展

Meta 發表全新開源大型語言模型 Llama 3.2,Arm 表示將與 Meta 展開緊密合作,在 Arm CPU 上啟用新的Llama 3.2 LLM,整合開源創新與 Arm 運算平台的優勢,以應對 AI 帶來的挑戰。

小型 LLM(如 Llama 3.2 1B 和 3B)能夠支援基於文本的基礎生成式 AI 工作負載,對於大規模 AI 推論的實現相當重要。透過 Arm CPU 優化核心在 Arm 技術驅動的行動裝置上運行新的 Llama 3.2 3B LLM,可讓提示詞(Prompt)處理速度提高五倍,詞元(token)生成速度提高三倍,在生成階段實現每秒 19.92 個詞元。這直接減少在裝置上處理 AI 工作負載的延遲,大大提升了使用者的整體體驗。此外,當邊緣端能處理的 AI 工作負載越多,往返雲端傳輸資料所節省的電量就越多,進而節省了能源和成本。

除了在邊緣端運行小型模型,更大的模型(如 Llama 3.2 11B 和 90B)也能在雲端運行。11B 和 90B 的模型非常適合雲端基於 CPU 的推論工作負載,可生成文本和圖像,如同 Arm Neoverse V2 的測試結果。基於 Arm 架構的 AWS Graviton4 執行 11B 圖像和文本模型,可在生成階段實現每秒 29.3 個詞元的表現,遠遠超出人類大約每秒閱讀五個詞元的速度。

Arm 還將透過 Arm Kleidi 進一步支援軟體社群,讓整個 AI 技術堆疊充分發揮最佳化過的 CPU 效能。Kleidi 可在任何 AI 框架釋放 Arm Cortex 和 Neoverse CPU 的 AI 功能和效能,無需應用程式開發人員進行額外的整合工作。

透過最近的 Kleidi 與 PyTorch 整合以及正在推進的與 ExecuTorch 整合,Arm 正在為基於 Arm CPU 的開發人員提供從雲到端的無縫 AI 效能,在基於 Arm 架構的 AWS Graviton 處理器上運行 Llama 3 LLM 的詞元首次回應時間加快了 2.5 倍。

行動裝置透過 KleidiAI 函式庫協助,使用 llama.cpp 函式庫在新 Arm Cortex-X925 CPU 運行 Llama 3 詞元,首次回應時間與參考實作相比快 190%。Arm 預期到 2025 年,將有千億台基於 Arm 架構的裝置支援 AI。

(首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》