H100 GPU 驅動運算，AWS 最新 P5 執行個體供雲端客戶採用

AWS（Amazon Web Services，亞馬遜雲端運算服務）日前在紐約峰會（AWS Summit New York 2023）宣布 Amazon Elastic Compute Cloud（EC2）P5 執行個體正式提供客戶採用，這是下一代的 GPU 執行個體，由最新 NVIDIA H100 Tensor Core GPU 驅動運作，滿足雲端客戶在執行 AI、機器學習、高效能運算對高效能和高擴展性的工作需求。

今年 3 月 AWS 與 NVIDIA 宣布一項多方合作，打造全球最具可擴展性且按需求付費的 AI 基礎設施，以便訓練日益複雜的大型語言模型、開發生成式 AI 的應用程式。當時 AWS 便預告由 H100 GPU 驅動的 Amazon EC2 P5 執行個體，為打造和訓練更大規模的機器學習模型提供高達 20 exaFLOPS 的算力，如今正式提供給客戶。

Amazon EC2 P5 執行個體提供 8 個 H100 GPU，具有 640GB 高頻寬 GPU 記憶體，同時提供第三代 AMD EPYC 處理器、2TB 系統記憶體以及 30TB 本地 NVMe 儲存。此外，還提供 3200Gbps 的聚合網路頻寬並支援 GPUDirect RDMA，能夠繞過 CPU 進行節點間通訊，達到更低延遲和高效橫向擴展效能。

適合訓練和執行越來越複雜的大型語言模型和電腦視覺模型的 Amazon EC2 P5 執行個體，可滿足密集運算的生成式 AI 應用需求，包括問答、產生程式碼、產生圖片和影片、語音辨識等。對於需要高效能運算的客戶採用 Amazon EC2 P5 執行個體，能夠更大規模地部署在藥物開發、地震分析、天氣預報、金融建模等高需求的應用程式。

與上一代以 GPU 為基礎的執行個體相比，Amazon EC2 P5 執行個體可將訓練時間縮減 6 倍，換句話說可從幾天縮短到幾小時的時間，幫助客戶節省多達 40% 的訓練成本。

（首圖來源：NVIDIA）