Hot Chips 2023》SK 海力士的記憶體內運算技術

讓記憶體內建運算單元的「記憶體內運算」（In-Memory Processing 或 Processing-In-Memory）其實很久以前就提出了，像 2D 繪圖時代一度出現三星「Windows RAM」這種擁有 EDO（Extended Data Out）存取模式，並內建視窗加速運算電路的改良型雙存取埠 VRAM。

生成式 AI 急速發展當下，對大型語言模型來說，記憶體是巨大挑戰，因這些模型都嚴重受限於記憶體容量和頻寬。

▲ 將運算單元內建至記憶體，可降低傳統程式載入型（Von Neumann）電腦的資料搬運量。

所以 SK 海力士認為，資料中心需要的不只記憶體，還有不同類型產品，包括內建計算功能的特定應用（Domain-Specific）記憶體，將大量運算工作直接於記憶體內搞定。SK 海力士在 Hot Chips 2023（第 35 屆）談論 AiM（Accelerator-in-Memory），就讓我們來看看這間記憶體大廠，葫蘆裡究竟藏什麼藥。

▲ 以大型語言模型為主生成式 AI 形成巨大「推理成本」。

▲ 大型語言模型通常受記憶體容量和頻寬限制，假若能將大型向量矩陣乘積和運算直接交給記憶體處理，問題就可減輕大半。

▲ SK 海力士認為根據不同應用，市場需要多種類記憶體技術，一般運算 DDR5、行動裝置 LPDDR5、繪圖應用 GDDR6 和 AI 訓練 HBM3、外部記憶體儲存池 CXL，還得加上內建計算能力、適用生成式 AI 與大型語言模型的 AiM。

▲ 所以今天 SK 海力士就要談論自家 AiM 了。

▲ 這是 SK 海力士 GDDR6 記憶體內建 16 個時脈 1GHz 運算處理單元（PU，Processing Unit）的 4Gb 顆粒試作品，可處理 BF16 資料格式，每個 Bank 都有配置專屬 PU 以達到完全 Bank 平行度，內部頻寬 512GB/s，理論計算吞吐量 512G Flops。