Hot Chips 2023》三星的記憶體內運算技術

作者痴漢水球 | 發布日期 2023 年 09 月 30 日 8:00 | 分類 AI 人工智慧 , 半導體 , 記憶體

Hot Chips 2023》三星的記憶體內運算技術

本屆 Hot Chips 2023（第 35 屆）談論「記憶體內運算」（PIM，Processing-In-Memory）廠商不只 SK 海力士，同為南韓記憶體巨頭的三星也沒有缺席。

其實三星早在 2021 年第 33 屆 Hot Chips，就公開針對 Facebook 的 DLRM（Deep Learning Recommendation Model）模型的 AXDIMM（Acceleraton DIMM）、LPDDR5-PIM 及代號 Aquabolt-XL 的 HBM2-PIM，揭露完整技術佈局。

▲ 利用記憶體內運算以一勞永逸解決記憶體瓶頸，三星也沒有閒著，甚至腳步還看似比 SK 海力士快許多。

Hot Chips 2023 三星進一步擴展記憶體內運算範圍至 CXL（Compute eXpress Link）外部記憶體儲存池。就來看看三星對記憶體內運算的觀點與看法。

▲ 計算工作最昂貴的成本之一：將資料從不同儲存位置和記憶體空間，搬移到實際計算引擎。

▲ 透過增加記憶體通道或提升時脈的傳統手段，有物理侷限性。

▲ 所以三星也將腦袋動到 PCIe 為基礎的 CXL 了。

▲ ChatGPT-3 的記憶體瓶頸。

▲ 三星分析 ChatGPT 的工作負載，大規模矩陣向量運算占 60%~80% 延遲，這也變成三星下手的目標。

▲ GPU 利用率分析，多數執行時間都浪費在資料於 CPU 與 GPU 間反覆搬運。

▲ 三星展示如何將部分計算卸載至記憶體內處理（PIM）。

▲ 直接在記憶體內處理資料，可減少資料搬運，降低功耗和互連成本。

▲ 當 SK 海力士展示 GDDR6-PIM 方案時，三星則談論 HBM-PIM。

▲ 三星 2022 年底用 96 張改造後 AMD MI100 加速卡，建置全球第一個基於 PIM 的 GPU 運算系統，或許可期待 AMD 以後就會做到這件事。

▲ T5-MoE 模型如何使用 HBM-PIM 叢集。

▲ 性能和能效都有飛躍性提升。

▲ 但關鍵還是在軟體如何有效運用 PIM。

▲ 三星希望能將軟體環境整合至標準應用程式開發模組。

▲ OneMCC 軟體標準的將來計畫，但還不是現在。

▲ 三星不只公開資料中心 HBM-PIM，也有終端裝置（On-Device）LPDDR-PIM，現在走到哪裡都需要 AI。

▲ LPDDR-PIM 應用概念。

▲ LPDDR-PIM 峰值內頻寬為 102.4GB/s，因運算就在記憶體內完成，無須將資料傳輸回 CPU 或其他輔助處理器（xPU），所以可降低功耗。

▲ LPDDR-PIM 架構，256 位元寬 SIMD 浮點運算器可執行 FP16 乘法、FP32 / INT8 累加運算，暫存器分別有指令、向量、和純量三種。

▲ LPDDR5-PIM 性能和功耗分析。

▲ HBM-PIM 和 LPDDR-PIM 還不夠，三星也企圖延展到 CXL-PNM（Processing-Near-Memory）。

▲ CXL-PNM 有兩種方法：運算單元集中放在 CXL 控制器，或分散到記憶體顆粒。

▲ 將 PNM 引擎放在 CXL 控制器是比較簡單的方法。

▲ 三星推出 512GB 的 CXL-PNM 概念卡，理論頻寬 1.1TB/s。

▲ CXL-PNM 也需要專用軟體堆疊架構。

▲ 大型語言模型引進 CXL-PNM 的預期節能和吞吐量。奠基於 PCIe 之上的 CXL，資料傳輸能源成本也不低，因此避免資料傳輸有明顯好處。

▲ 最後毫無疑問，減少能源消耗當然比較節能減碳。

身為全球最大記憶體製造商，三星沒有理由放過 AI 帶來的記憶體內運算衍生的巨大商機。既然 SK 海力士和三星都積極表態了，就讓我們等待同為「DRAM 御三家」的美光（Micron）何時會透露他們的計畫。

（首圖來源：三星）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

科技新報粉絲團

訂閱免費電子報

關鍵字: AI , CXL , Hot Chips 2023 , 三星 , 記憶體內運算