AWS 數十萬 AI 晶片建設超級集群,助 Anthropic 挑戰 OpenAI

作者 | 發布日期 2025 年 07 月 09 日 8:30 | 分類 AI 人工智慧 , 伺服器 , 晶片 line share Linkedin share follow us in feedly line share
Loading...
AWS 數十萬 AI 晶片建設超級集群,助 Anthropic 挑戰 OpenAI

Amazon Web Services(AWS)正建設名為 Project Rainier 的超級運算集群,含數十萬顆自研 Trainium2 AI 晶片,為投資夥伴 Anthropic 提供強大運算能力。年底上線,橫跨美國多座資料中心。

單印第安那州設施就含 30 座資料中心,每座占地 20 萬平方英呎,耗電量超過 2.2 吉瓦。亞馬遜已投資 Anthropic 80 億美元,希望幫助與 OpenAI 競爭取得優勢。專案採亞馬遜自研 Trainium2 晶片而非 GPU,是 AWS 自研 AI 晶片有史最大規模部署。

規模史無前例

亞馬遜 Annapurna Labs 產品總監 Gadi Hutt 表示:「這是我們首次建設如此大規模的訓練集群,讓 Anthropic 能在所有基礎設施訓練單一模型。規模真正史無前例。」

與 OpenAI 的 Stargate 或 xAI 的 Colossus 不同,Project Rainier 是跨多個地點的分佈式系統,而非單一超級電腦。這種設計讓系統持續擴展,理論上沒有上限。Anthropic 已經開始使用部分系統訓練 AI 模型。亞馬遜表示將「複製貼上」基本運算單元擴大整個集群規模。

自研晶片挑戰 Nvidia

Project Rainier 的核心是亞馬遜自研 Trainium2 晶片。每個晶片提供 1.3petaFLOPS 運算能力和 96GB 記憶體。雖然單一晶片性能不如 Nvidia 最新 B200 晶片(4.5petaFLOPS),但亞馬遜強調成本效益更重要。

Hutt 解釋:「客戶要求的不是『給我們最快的晶片』,而是最低成本的性能,當然還要易於使用。」亞馬遜將 16 個 Trainium2 晶片組成一個基本單元,再將四個單元組合成有 64 個晶片的「UltraServer」。數千個 UltraServer 連接起來就構成完整的 Project Rainier 集群。

建設如此大規模的 AI 集群需要巨大電力。專家估計,含 25 萬顆 Trainium2 晶片的集群需要 250~300 兆瓦電力,相當於 xAI Colossus 超級電腦的耗電量。亞馬遜正為印第安那州設施建設特殊的網路基礎設施,包括自創光纖「繩索」應付大量線路。亞馬遜還開發自訂網路系統,承諾提供極低延遲的高速連接。

下一代晶片蓄勢待發

亞馬遜已預告第三代 Trainium3 晶片,採 3 奈米製程,效能比現有晶片高 40%。新晶片系統的運算能力預計比現有系統高四倍。代表 Project Rainier 部分設施可能採更強大 Trainium3 晶片,就像亞馬遜另一個專案 Project Ceiba 最終改用 Nvidia 更新 Blackwell 晶片。

Project Rainier 反映科技巨擘 AI 基礎設施的激烈競爭。AI 模型更複雜後,需更多運算資源訓練,各公司競相建設更大規模系統保持競爭優勢。亞馬遜以新專案鞏固雲端 AI 市場地位,同時為 Anthropic 提供挑戰 OpenAI 的運算基礎。

(本文由 Unwire Pro 授權轉載;首圖來源:Flickr/Web Summit CC BY 2.0)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》