台積電 4 奈米助攻，輝達 H100 NVL 運算加速卡訓練語言模型效率倍增

輝達在 GTC 2023 上宣布，針對大型語言模型訓練（LLM）推出的全新 H100 NVL 運算加速卡。其搭載了兩個基於 Hopper 架構的 H100 晶片，另外配備了 3 個 NVLink 連接器，在伺服器裡使用了兩個相鄰的 PCIe 全長插槽。

事實上，輝達 2022 年就推出了 H100，擁有 800 億個電晶體，相比上一代的 A100，有著 6 倍的性能提升以及 2 倍的 MMA 改進。其採用了 CoWoS 2.5D 晶圓級封裝，單晶片設計，以台積電為輝達量身定制的 4 奈米節點製程來生產。而這次雙 GPU 版本除了更高的運算效能，加上提供了 188GB 的 HBM3 顯示記憶體，也成為其優勢之一。

根據輝達所公布的資料，H100 NVL 計算加速卡的 FP64 計算性能為 134 teraFLOPS，TF32 計算性能為 1979 teraFLOPS，FP8 計算性能為 7916 teraFLOPS，INT8 計算性能為7 916 teraFLOPS，表現是 H100 SXM 的兩倍。其具有完整的 6144 位顯示記憶體介面，顯示記憶體傳輸速率可達 5.1Gbps，代表著最大資料傳輸速度為 7.8GB/s，是 H100 SM3 的兩倍多。由於大型語言模型訓練需要更大的緩衝區和更高的頻寬，所以更大的顯示記憶體將會對運算有所影響。

根據目前的資料得知，H100 NVL 計算加速卡的功耗略高於H100 PCIe（350W）的兩倍或以上，在 700W 至 800W 之間。而輝達計劃在 2023 年下半年推出 H100 NVL 計算加速卡，不過暫時沒有進一步提供任何的細節。

(首圖來源：官網)