Hot Chips 2023》三星的記憶體內運算技術

作者 | 發布日期 2023 年 09 月 30 日 8:00 | 分類 AI 人工智慧 , 半導體 , 記憶體 line share follow us in feedly line share
Hot Chips 2023》三星的記憶體內運算技術


本屆 Hot Chips 2023(第 35 屆)談論「記憶體內運算」(PIM,Processing-In-Memory)廠商不只 SK 海力士,同為南韓記憶體巨頭的三星也沒有缺席。

其實三星早在 2021 年第 33 屆 Hot Chips,就公開針對 Facebook 的 DLRM(Deep Learning Recommendation Model)模型的 AXDIMM(Acceleraton DIMM)、LPDDR5-PIM 及代號 Aquabolt-XL 的 HBM2-PIM,揭露完整技術佈局。

▲ 利用記憶體內運算以一勞永逸解決記憶體瓶頸,三星也沒有閒著,甚至腳步還看似比 SK 海力士快許多。

Hot Chips 2023 三星進一步擴展記憶體內運算範圍至 CXL(Compute eXpress Link)外部記憶體儲存池。就來看看三星對記憶體內運算的觀點與看法。

▲ 計算工作最昂貴的成本之一:將資料從不同儲存位置和記憶體空間,搬移到實際計算引擎。

▲ 透過增加記憶體通道或提升時脈的傳統手段,有物理侷限性。

▲ 所以三星也將腦袋動到 PCIe 為基礎的 CXL 了。

▲ ChatGPT-3 的記憶體瓶頸。

▲ 三星分析 ChatGPT 的工作負載,大規模矩陣向量運算占 60%~80% 延遲,這也變成三星下手的目標。

▲ GPU 利用率分析,多數執行時間都浪費在資料於 CPU 與 GPU 間反覆搬運。

▲ 三星展示如何將部分計算卸載至記憶體內處理(PIM)。

▲ 直接在記憶體內處理資料,可減少資料搬運,降低功耗和互連成本。

▲ 當 SK 海力士展示 GDDR6-PIM 方案時,三星則談論 HBM-PIM。

▲ 三星 2022 年底用 96 張改造後 AMD MI100 加速卡,建置全球第一個基於 PIM 的 GPU 運算系統,或許可期待 AMD 以後就會做到這件事。

▲ T5-MoE 模型如何使用 HBM-PIM 叢集。

▲ 性能和能效都有飛躍性提升。

▲ 但關鍵還是在軟體如何有效運用 PIM。

▲ 三星希望能將軟體環境整合至標準應用程式開發模組。

▲ OneMCC 軟體標準的將來計畫,但還不是現在。

▲ 三星不只公開資料中心 HBM-PIM,也有終端裝置(On-Device)LPDDR-PIM,現在走到哪裡都需要 AI。

▲ LPDDR-PIM 應用概念。

▲ LPDDR-PIM 峰值內頻寬為 102.4GB/s,因運算就在記憶體內完成,無須將資料傳輸回 CPU 或其他輔助處理器(xPU),所以可降低功耗。

▲ LPDDR-PIM 架構,256 位元寬 SIMD 浮點運算器可執行 FP16 乘法、FP32 / INT8 累加運算,暫存器分別有指令、向量、和純量三種。

▲ LPDDR5-PIM 性能和功耗分析。

▲ HBM-PIM 和 LPDDR-PIM 還不夠,三星也企圖延展到 CXL-PNM(Processing-Near-Memory)。

▲ CXL-PNM 有兩種方法:運算單元集中放在 CXL 控制器,或分散到記憶體顆粒。

▲ 將 PNM 引擎放在 CXL 控制器是比較簡單的方法。

▲ 三星推出 512GB 的 CXL-PNM 概念卡,理論頻寬 1.1TB/s。

▲ CXL-PNM 也需要專用軟體堆疊架構。

▲ 大型語言模型引進 CXL-PNM 的預期節能和吞吐量。奠基於 PCIe 之上的 CXL,資料傳輸能源成本也不低,因此避免資料傳輸有明顯好處。

▲ 最後毫無疑問,減少能源消耗當然比較節能減碳。

身為全球最大記憶體製造商,三星沒有理由放過 AI 帶來的記憶體內運算衍生的巨大商機。既然 SK 海力士和三星都積極表態了,就讓我們等待同為「DRAM 御三家」的美光(Micron)何時會透露他們的計畫。

(首圖來源:三星