根據 TrendForce 最新發表的伺服器報告指出,近幾年受到新興應用的激勵,加速了人工智慧及高效能運算的發展,且伴隨著仰賴機器學習及推論的需求提升,建構出的模型複雜度隨著需求的精細程度有所增加,因此在計算時需處理的資料量隨之增大。在此情境下,龐大的資料處理量受硬體效能侷限, 導致使用者在設備的建置面臨了效能、容量、延遲度以及成本間的取捨問題,刺激 HBM(High Bandwidth Memory)及 CXL(Compute Express Link)的出現。功能上來說,HBM 為新型態記憶體, 主要協助更多元、高複雜運算而需要的I/O輔助,而 CXL 則為使記憶體資源共享的協定,提供 xPU 更為便捷的應用。
現行DRAM架構垂直堆疊,HBM突破現有解決方案的頻寬限制
為了不受限於傳統記憶體的頻寬束縛,記憶體原廠開發了HBM,其結構為基本邏輯顆粒上連接數層的DRAM裸晶,而DRAM裸晶之間以矽通孔及微凸塊3D堆疊達到高頻寬設計,層數又以4層及8層為主流。而以現行世代來看,HBM2e為目前最新的量產世代,單層16Gb的裸晶堆疊4層或8層,使得單顆容量分別為8GB及16GB,頻寬可達410~460GB/s,而下一代HBM3已進入機構件送樣階段,可望於2022年量產。
根據TrendForce觀察,2021年HBM位元需求占整體DRAM市場仍未達1%,主要包含兩大原因:首先是消費級應用因成本考量下幾乎未採用HBM,其次是伺服器市場中做為AI功能的建置低於1%,意即伺服器搭載相關AI運算卡的比重仍小於1%,且多數記憶體仍使用GDDR5(x)、GDDR6來支持其演算力。
展望未來,雖然HBM仍在發展期,但隨著應用對AI的依賴度增加(包含模型複雜化來優化AI精準度),需要HBM的加入來支援硬體。其中, 以與AI最相關的FPGA和ASIC來看,FPGA產品有Intel的Stratix、Agilex- M以及Xilinx的Versal HBM導入HBM;而ASIC方面,多數資料中心在AI的建置中, 逐漸以自研的ASIC晶片為發展方向,例如Google的TPU、Tencent的邃思、Baidu的崑崙皆使用HBM。再者,Intel的server CPU Sapphire Rapids亦規劃於2022年底釋出帶HBM的高階版本。TrendForce認為,HBM有助於突破AI發展中受限的硬體頻寬瓶頸,未來市場上將出現更多相關應用。
高速運算催生的新協定,CXL將更有效整合系統中的運算資源
CXL則是基於PCIe Gen5規格演變的協定,讓CPU及其他加速器(例如GPU、 FPGA等之間)建立高速、低延遲的互聯性,使其各自的記憶體模擬成一個共用的空間,允許記憶體資源共享,降低系統成本並獲得更高的性能,有利於解決AI及HPC的工作負載。
而市場上類似概念的記憶體資源共享協定並非只有CXL提出,NVIDIA的NVLink、AMD及Xilinx的Gen- Z,皆凸顯大廠對系統資源整合的重視。然而,TrendForce認為,CXL能由眾多協定中脫穎而出的主要原因,來自於其協定為Intel提出,而該公司在CPU市場占有高採用率的優勢,Intel CPU支援的號召能使得CXL及其相關硬體設備商得以自上而下的統合,因此相繼獲得AMD、ARM、NVIDIA、 Google、Microsoft、Meta(Facebook)、 Alibaba、Dell等公司的加入,成為目前呼聲最高的記憶體協定。
在允許CPU及其他硬體進行記憶體資源整合下,利於降低各硬體間的通信延遲,也能提高AI及HPC發展需要的計算性能。為此,Intel將在下一代伺服器CPU Sapphire Rapids中支援CXL,而記憶體原廠亦規劃支援CXL的產品方案,其中,三星( Samsung)宣佈將推出支援CXL的DDR5模組,用以擴張伺服器記憶體容量,滿足AI運算需要的龐大記憶體需求。未來CXL亦有機會推及至NAND Flash的方案支援,使得DRAM及NAND Flash雙雙受惠。
HBM及CXL互動合作有利於AI發展,實際應用於2023年將更有能見度
TrendForce認為,CXL導入將隨著未來CPU內建CXL功能而普及化,而未來AI伺服器的硬體建置,將能見到更多同時採用HBM及CXL的設計。其中HBM能分別增加CPU及加速器各自的頻寬,加速資料處理速度;CXL則建立彼此間溝通的高速互聯性,兩者互動有助於擴展AI演算力加速AI發展。
在記憶體資源共享下,模型的設計能擺脫硬體瓶頸,持續往更複雜的架構建設。TrendForce預估, 隨著支援CXL的Intel CPU Sapphire Rapids導入達一定覆蓋率,以及記憶體原廠陸續量產更高頻寬的HBM3及具備CXL功能的D RAM與SSD,2023年可望於市場上見到更多HBM及CXL合作使用的應用。
(首圖來源:shutterstock)