
Tom′s Hardware 報導,記憶體大廠鎧俠 (Kioxia) 準備推出突破性「AI SSD」(AI 固態硬碟),目的徹底改變 AI 伺服器的儲存生態,並顯著提升效能,將成為 AI 關鍵推動者,特別是大型語言模型 (LLM) 和檢索增強生成 (RAG) 系統。
目前現代 AI 伺服器主要效能瓶頸是儲存與圖形處理單元 (GPU) 間的資料傳輸效率。資料通常需要透過中央處理器 (CPU) 傳輸,大幅增加延遲並延長存取時間,阻礙 GPU 核心滿載。
鎧俠「AI SSD」正是為了解決這個核心問題而設計,專門針對最大化輸入輸出操作每秒 (IOPS) 最佳化的新型控制器,目標是小區塊工作執行下達到 1,000 萬 IOPS 以上。這項效能指標是當前許多高階資料中心 SSD 三倍以上,這些 SSD 通常在 4K 和 512 位元組隨機讀取操作中達到 200 萬到 300 萬 IOPS。
AI SSD 採單層儲存 (SLC) XL-Flash 記憶體,讀取延遲僅 3~5 微秒,與傳統 3D NAND 的 SSD 延遲 40~100 微秒明顯提升。每單元儲存一位元,SLC 不僅存取時間更快,耐用度也更高,都是要求嚴苛的 AI 工作負載不可或缺的屬性。
AI SSD 另一項關鍵創新是其對 GPU 與 SSD 之間點對點通訊的優化。這將允許資料直接在 GPU 和 SSD 之間傳輸,完全繞過 CPU,從而進一步降低延遲並提升整體效能。這種設計理念對於保持 GPU 核心始終處於 100% 利用率至關重要。
資料區塊大小方面,最佳化 512 位元組區塊存取。雖然從頻寬角度來看,使用 4K 或更大區塊通常更具意義,但大型語言模型 (LLM) 和檢索增強生成 (RAG) 系統通常需要對嵌入、參數或知識庫條目進行小而隨機的存取。在這些情境下,512 位元組等小型區塊更能代表實際應用程式的行為,並且能更好地滿足 LLM 和 RAG 在延遲方面的需求。
此外,GPU 通常在 32、64 或 128 位元組的快取行上操作,記憶體子系統也最佳化許多小獨立記憶體位置突發存取,以確保所有串流處理器持續運作。512 位元組讀取與 GPU 設計更契合,也是鎧俠(與 Nvidia)採 512 位元組區塊的另一個原因。
鎧俠雖未揭露 AI SSD 主機介面為何,但從頻寬角度看,似乎不需要 PCIe 6.0 介面。新產品預定 2026 下半年發表,有望為 AI 伺服器帶來顯著的效能飛躍,推動人工智慧發展。
(首圖來源:鎧俠)