如日中天的輝達,下個目標是搶走雲端廠商的生意?

作者 | 發布日期 2023 年 08 月 24 日 8:00 | 分類 GPU , 雲端 line share follow us in feedly line share
如日中天的輝達,下個目標是搶走雲端廠商的生意?


輝達總有新消息讓人驚訝。

最近來自美國雲端新創CoreWeave,宣布融資23億美元,更讓人震驚的是這筆錢抵押物是公司物產GPU。大模型熱潮下,GPU儼然成為硬貨幣,CoreWeave有這麼多輝達稀有物,是因前一個身分──北美最大以太坊礦場。CoreWeave有超過五萬台GPU礦機,挖礦不能賺錢後,CoreWeave就把目光轉向AI等需要算力的領域,並在ChatGPT爆紅前就採購大量輝達晶片──那時晶片產能還夠。

CoreWeave自稱是世界唯一有大規模H100算力的公司,搖身一變成為「雲端廠商」。

(Source:CoreWeave

沒錯,CoreWeave GPU供給超越所有雲端服務巨頭如Google Cloud、亞馬遜AWS和微軟Azure。

這聽起來太好笑了,即使不談GPU數量瓶頸,構建資料中心需高額成本,空間設計、電源分配和散熱及複雜的軟硬體合作,一般來說,能滿足這些條件的只有巨頭,而不是剛進行B輪融資(4.21億美元)的新創公司。

CoreWeave能做到這點,源於對資料中心截然不同的理解。傳統資料中心由CPU構成,注重通用計算,最開始是英特爾,後來AMD晶片壟斷。但全新加速計算資料中心更強調並行計算,需有更大記憶體、頻寬及把所有加速計算單元連起來,輝達創辦人兼CEO黃仁勳稱之為「資料中心現代化」,是可持續十年的週期。

新週期開始預示整個資料中心建構,軟硬體合作至電源和散熱結構都需要重新設計,使所有雲端服務商幾乎重回起跑線──為CPU設計的上代方案幾乎無法照搬。如輝達連接龐大GPU集群的Infinite Band技術需超過500英里長電纜,傳統資料中心設計根本不存在。

CoreWeave舉另一個例子,相同場地,GPU集群電力是傳統資料中心4倍,因此新資料中心電力系統和散熱系統都需要重新設計,這甚至還不算入軟硬體合作成本。

搶占先機的CoreWeave不僅能提供龐大H100算力,且比其他雲端服務快幾十倍費用還低80%,能做到這些,可歸功於很早就精準實行黃仁勳的資料中心願景──資料中心正轉向加速計算,缺乏的算力則透過雲端供應。

就這樣,挖礦公司變成當紅雲端計算公司,只因是最忠誠的輝達門徒。

輝達雲是什麼雲

誰有輝達GPU就是最紅雲端廠商,那是誰有最多輝達GPU?顯然是它自己。於是扶持類似雲端新創同時,輝達也自己蓋雲端。輝達親自下場優勢很多,最明顯的是不受GPU供應量困擾。馬斯克說取得GPU比毒品難多了,CoreWeave能提供大規模H100算力,也和輝達充分供應有關──輝達幾個月前還參與CoreWeave的B輪融資。

但投資新創公司還不夠,生成式AI對算力的巨大需求最終讓輝達自己下場。3月GTC大會,輝達推出雲端服務DGX Cloud,最近上線。從名字就可看出,DGX Cloud使用輝達DGX超級計算機,雲端每個實例均配備8個H100或A100 GPU及640GB記憶體。

DGX Cloud採低延遲結構,讓龐大工作流可在集群擴展,於多個計算節點並行分配。如最先宣布與DGX Cloud合作的甲骨文,OCI Supercluster每個集群部署超過3萬個A100 GPU,大模型可直接在雲端訓練。用戶任何地方都能存取自己的AI超級計算機(輝達表示算力分配是獨享排他),需打交道的只有前台介面,除了開發過程,不用再擔心任何和硬體基礎設施相關問題。

新服務採月租,金額高達近4萬美元。當然比直接買一台DGX伺服器要價20萬美元便宜許多,但不少人指出,微軟Azure同樣8個A100GPU收費不到2萬美元,只輝達一半。為什麼輝達這麼貴?因和別家不同,不僅包括算力,還有整套AI解決方案。

Base Command Platform(基礎命令平台)和AI Enterprise兩項服務整合至DGX Cloud,前者是管理監控軟體,不僅可記錄雲端算力訓練負載,提供跨雲端和本地算力整合,還能讓用戶直接從瀏覽器存取DGX Cloud;後者是輝達AI平台軟體層,高達數千個軟體包提供各種預訓練模型、AI框架和加速庫,簡化端到端AI開發和部署成本。除此之外,DGX Cloud還提供AI Foundations模型鑄造服務,讓企業用戶使用自己數據客製垂直大模型。

這套軟硬體完整解決方案讓DGX Cloud訓練速度比傳統雲端提高兩到三倍,成為DGX Cloud與傳統雲端服務最大的不同,綜合輝達兩方面強項:AI生態和算力。對輝達來說,「軟體即服務」似乎應改成「軟硬體一體即服務」,DGX Cloud代表硬體廠商向上垂直整合的天花板。

黃仁勳的野心和現實

但這不代表輝達徹底掀了傳統雲端商的桌子。新服務還是得透過傳統雲端商。DGX Cloud開始推出是在Oracle Cloud,之後微軟和Google跟進,輝達與雲端商合作方式頗有趣:輝達先把GPU硬體賣給夥伴,然後再租用硬體以便執行DGX Cloud。

有人戲稱這叫兩邊錢一起賺,都不耽誤。

黃仁勳解釋過這模式:「我們從客戶使用我們的計算平台受益,客戶透過將我們(的計算平台)裝在他們(雲端廠商)的雲端受益。」如果只聽黃仁勳說,就是皆大歡喜的雙贏結局,然而這只是他的敘事手法,輝達已陷入與客戶競爭局面,且大家心知肚明。

DGX Cloud進度告訴我們,黃仁勳並不打算只部屬至傳統雲端商。8月SIGGRAPH 2023,輝達先宣布與Hugging Face合作,接著發表AI Workbench服務,都可讓用戶方便創建、測試和客製預訓大模型,算力支持自然包括DGX Cloud。

這顯然衝擊到輝達和雲端廠商的關係:最主要的雲端商Google、亞馬遜和微軟,同樣也是輝達的大客戶,輝達推廣自家雲端服務勢必會和三家爭搶市占率。前面提到,身兼資料中心和雲端巨頭,三家構建下代資料中心時本就不具太多優勢,如果再考慮到輝達晶片產能「卡脖子」問題,輝達雲端服務威脅不可謂不小。

黃仁勳不會不知道這點,因此對DGX Cloud的態度就頗值玩味,如他表示恰當的雲端服務組合比例應是10%輝達DGX加上90%公有雲,換言之,DGX Cloud在黃仁勳的定位裡並不是傳統雲端廠商的對手與威脅,而是合作夥伴。

24日最新財報公開後分析師電話會議,黃仁勳只談合作的好處,「巨大的雙贏」,黃仁勳如此形容。他理解是DGX Cloud是個純粹的輝達堆棧(pure Nvidia stack),把人工智慧開發、大型資料庫和高速低延遲網路組合,成為便捷的AI基礎設施,打開全新巨大的市場──參與者有輝達和傳統雲端商,大家將共同受益於生成式AI爆發。

極力避談衝突,其實只是DGX Cloud恐怕很長時間都只能維持較小規模。

第一個原因當然是算力瓶頸。「訂單多到不可思議」是黃仁勳形容資料中心業務量說法,輝達核心要務當然是開發並保證生產盡可能符合市場需求的先進晶片,否則雲端規模無法擴大。

儘管台積電馬不停蹄生產,但算力缺口沒有變小反而更大,因大模型落地商業化(如ChatGPT),推理成本隨用戶規模提升也等比級數升高,長遠看會比訓練模型算力需求大得多(有人說倍率是100)。

此外,考慮到輝達和傳統雲端商關係的複雜性。DGX Cloud如果為純粹競品出現,或許會占領可觀市占,但勢必加速雲端商擺脫輝達──他們本來就為了少繳「輝達稅」不約而同開始自研晶片了。

另一個角度講,全力擴大DGX Cloud規模可能也不符合輝達最佳利益。從晶片到遊戲顯卡再到伺服器和資料中心,輝達絕少自己製造硬體產品,更喜歡和OEM廠商合作,許多時候要採購輝達晶片都還得經過OEM廠商,讓輝達能控制成本、維持利潤率。

今天輝達和雲端商似乎還是平衡狀態,但平衡就是用來打破的,尤其當一方是輝達,畢竟現在正是黃仁勳所謂「下代資料中心十年」更新週期的第一年。

(本文由 品玩 授權轉載;首圖來源:shutterstock)

延伸閱讀: