從蘋果 M1 Max 回顧史上巨無霸處理器:GPU 篇

作者 | 發布日期 2021 年 12 月 22 日 8:00 | 分類 Apple , GPU , 科技史 Telegram share ! follow us in feedly


前一篇文章欣賞了近代高效能泛用處理器的「巨大存在感」,但在時下一大票人為了「挖礦」瘋狂的世界,一說到本應「著毋庸議」的巨無霸晶片,大概也沒有比 GPU 更有「親切感」的產品了。

更何況蘋果M1 Max的「空照圖」最值得讓人多看幾眼的特色,莫過於「占地甚廣」的32核心GPU功能單元,現在將眼光看向晶粒面積一向大到「理所當然」的高階GPU,順便也讓各位思索一下蘋果M1 Max的GPU,大致屬於怎樣的「檔次」。

▲ 蘋果M1 Max(面積432平方公釐,台積電5奈米製程,570億電晶體)。

但在進入主題之前,先回到1990年代中後期,個人電腦3D遊戲應用剛崛起的古老年代,也請各位先複習一下過往半個多世紀以來的繪圖硬體發展史,替後面的故事做好事前功課。

從這張洋洋灑灑的重大里程碑,可清楚看到推動GPU肥大化的主要推手:GPU通用運算(General Purpose GPU,GPGPU)。GPU通用運算大致可分為幾個時期:

  • 1999年8月31日Nvidia發表GeForce 256(NV10,Celsius微架構),創造了「GPU」(Graphic Processing Unit)看起來好像非常偉大的名詞。Nvidia對GPU一詞的最初技術定義是「整合的 3D 轉換(Transform)、打光(Lighting)、三角設定(Triangle Setup)/裁切(Clipping)與成像引擎(Rendering Engine),每秒能處理至少1千萬個多邊形的單晶片處理器」。講白話點,就是幾何(Geometry)轉換相關的工作就讓顯示晶片自己處理掉,無需勞煩CPU。
  • 1999~2006年「醞釀期」:微軟DirectX 8制定的著色器架構模型(Shader Model),讓GPU具備最基礎的可程式化能力。
  • 2006~2009年「開創期」:微軟DirectX 10的統一著色器架構(Unified Shader)強化GPU使用彈性,並以Nvidia G80(Tesla 1.0微架構)為起點,GPU走向兼具SIMD與MIMD部分優點的SIMT(Single Instruction, Multiple Threads)運算架構,如紡紗機千絲萬縷的執行緒「灌入」拆散後的龐大運算單元。
  • 2009~2010年「熟成期」:以微軟DirectX 11為起點,GPU支援IEEE 754-2008浮點格式,無論單倍還是雙倍精度的浮點乘積和,都成為標準配備,而記憶體ECC等糾錯機制,改善GPU的可靠性,讓GPU更接近CPU,也更適合高效能運算(HPC)。
  • 2010~2016年「實用期」:GPU雙雄Nvidia與AMD一同「黏死」台積電28奈米製程很多年,但這段期間CUDA、OpenCL、OpenMP與OpenACC等應用程式介面也逐漸成熟,克服GPU記憶體容量限制的共用虛擬記憶體,也在這時萌芽。
  • 2016年開始「邁向人工智慧」:為了強化GPU較弱的「推論」與節約記憶體容量開銷,支援FP16 Int8等低精度資料格式,「學習」部分也引進Google BF16(Bfloat16)與Nvidia TF32(TensorFlow 32)等特化資料格式,並擴充專屬功能單元與新增專用指令。此外,高階GPU普遍導入帶來巨量頻寬的HBM2記憶體,並引進新型匯流排以便連接多顆GPU,如Nvidia的NVLink和AMD的Infinity Fabric。

但萬丈高樓平地起,各位讀者也能從本系列首篇了解「原來這些晶片一開始也不是這麼巨大,甚至還要好幾顆才能組成」道理。讓我們再次跳上時光機,回到1995年「還沒有GPU」的年代,重溫3dfx的崛起與隕落,回首Nvidia的機運與緣起。

在大家只需狂衝畫素材質填充率的美好年代

請大家稍微複習一下繪圖管線簡圖。整合幾何轉換硬體單元GPU之前,仍以遊戲為主的消費型3D繪圖晶片,規格競爭的重點指標,只有在光柵輸出階段(Rasterization)的畫素填充率(Pixel Fillrate)與材質填充率(Texel Fillrate),「將畫素/材質處理管線的數量×時脈(或加入會影響實際填充率的記憶體規格)」就成為唯一的「賽豬公」比較基準。

曾以Voodoo系列在1990年代中後期獨領風騷的3dfx,初代產品Voodoo加速卡(SST1),分別由一顆Frame Buffer處理器(FBI)和一顆材質映射單元(TMU)組成。第二代Voodoo 2(SST2)追加第二顆TMU,一個時脈週期可同時繪製兩個材質畫素(Texel)。除了外掛Alliance Semiconductor AT25/AT3D 2D晶片的Voodoo Rush,單晶片方案Voodoo Banshee之前,Voodoo系列產品都不具2D繪圖能力,需搭配一張獨立顯示卡。

從這裡也可了解,因多晶片架構,每顆又都有自己的記憶體,3dfx產品成本結構極為高昂(各位可以回想一下IBM初代Power和Power2),並不利爭取主流市場,也自己搞自家Glide 3D API,留給Nvidia成長空間,蓄意併購Nvidia最大客戶STB斷其後路、讓自己做顯示卡導致「球員兼裁判」的錯誤商業決策,變成壓死3dfx的最後一根稻草。

即使到了公司快破產前的末代產品Rampage,也還是堅持多晶片方案,要外掛另一顆Sage幾何轉換處理器。3dfx如意算盤如下:

從下表即可瞬間了解Rampage與Sage的組合,對上Nvidia GeForce 256恐怕還是凶多吉少,製程比人好,但電晶體多那麼多。況且2018年底,也是3dfx宣布開發Rampage的20年後,《The Legacy of 3dfx》一書作者Oscar Barea,測試手上Rampage顯示卡工程樣品,證實效能對上GeForce 256也占不到任何便宜。

再來瞧瞧這時的Nvidia,在人類第一顆GPU GeForce 256之前,不知故意還是巧合,所有繪圖晶片晶粒面積都統一為90平方公釐(天知道是不是師法追求「簡單、迅速、便宜」的Centaur,這也替Nvidia帶來很大的成本優勢,姑且不論性能如何,一顆小晶片即可取代3dfx的多晶片巨獸,光憑這點就足以保證Nvidia遲早會取代3dfx的龍頭地位。

當然被Nvidia併購後,3dfx遺產都默默消失在世界盡頭。如同外界盛傳的「Sage成為GeForce 4(NV25)幾何引擎、Rampage轉生GeForce 6800(NV40)的Pixel Shader技術基礎」,究竟3dfx有多少「法寶」融入nVidia產品,就只有Nvidia自己知道了。

但3dfx垮台並不代表Nvidia背後就沒有追兵:日後被AMD併購的ATi,Radeon家族前身Rage,以Rage 128系列最具代表性(89平方公釐,800萬電晶體,250奈米製程)。ATi當時普遍定位成「效能比nVidia弱一些,但拿來放影片卻是響噹噹的極品」。ATi搖身一變能與Nvidia分庭抗禮、並值得被AMD巨資買下的最強競爭對手,就是GPU時代初期的故事了。

GPU時代的來臨與ATi發動的逆襲

奠定ATi成為GPU巨強基礎的關鍵戰役,發生在2002~2003年間ATi R300全面擊潰Nvidia NV30,後者歷經多次延宕,結果還是打不過半年前就登場的R300,還鬧出Nvidia為了讓NV30的效能「好看一點」,弄出「僅限於GeForce FX系列」的Demo程式,還在驅動程式動手腳,引爆3DMark03作弊疑雲,也差點毀掉Nvidia驅動程式穩定度的好口碑。

這場屬於ATi的勝利,也確立與Nvidia長期對抗的態勢,直到2006年7月24日,以54億美元價碼被AMD併購為止。

Nvidia會在寄以厚望的NV30重重摔了一跤,原因甚多,但可總結以下幾點:

  • 微軟暗助:那時微軟正因Xbox(晶片報價風波)跟Nvidia交惡,讓ATi提前得知Pixel Shader可採用24位元精度,這讓ATi精簡Pixel Shader設計,更進一步讓每個畫素管線僅擁有一個材質功能單元,將電晶體都砸在可保證提升效能的刀口上,如更多管線與更寬記憶體控制器。相較下Nvidia NV30卻落入「16位元品質不如人,32位元跑得又太慢」窘境。
  • 不務正業:大概是「3dfx Glide怨念上身」,想自己搞自己的提前布局GPGPU,Nvidia 2002年開發Cg(C for Graphics)高階Shader語言,NV30導入自定義的CineFX引擎,讓電晶體數量達前代NV25兩倍,但帳面硬體規格卻輸給R300一大截。
  • 衝得太快:NV30採用當時台積電最先進的130奈米製程,記憶體也提前採三星製造的GDDR2,加上藉由高時脈支撐效能,就發生一連串災難,包括失控的功耗、昂貴的12層走線電路板、被網路鄉民惡搞成「吹風機」的巨大散熱器。

但Nvidia很快亡羊補牢,迅速推出強化版GeForce FX 5900(NV35)和GeForce FX5950(NV38),設法拉近與ATi的差距,且2004年5月4日GeForce 6800 Ultra(NV40),反過來痛打ATi Radeon X800 XT(R420),奪回領先優勢。

然後GPU雙雄的高階產品,晶粒面積也穩定增肥,使動輒超過300平方公釐成為習以為常的常態,一路到2006年11月8日的GeForce GTX 8800(G80)以484平方公釐的驚人尺寸,告訴世人GPGPU即將吹響GPU恐龍化的號角。

同場加映另一間錯過3D浪潮、試圖振衰起蔽的顯示卡廠商:以MGA Milliennium和Mystique聞名於世的加拿大Matrox,充滿傳奇色彩的2D王者。

2002年發表Parhelia系列,帳面有極度暴力的規格,採用聯電150奈米製程,電晶體多達8,000萬,晶粒面積也是巨大的174平方公釐,原引發熱烈期待,但效能表現卻遠遠不如預期,不僅明顯不如更老舊的Nvidia GeForce 4 Ti 4600(NV25),只勉強達到ATi Radeon 8500(R200)和Nvidia GeForce 3(NV20)水準,還不幸直接一頭撞上極度強勢的ATi Radeon 9700 Pro(R300)。

造成Matrox Parhelia失敗的可能原因,大體不外乎驅動程式不夠成熟(除GPU雙雄外所有廠商的共同弱點)、每個畫素管線配置四個材質單元適得其反(大部分遊戲都用不到)、運作時脈太低(250MHz,遠不如R300的325MHz)、欠缺記憶體頻寬節約技術(反觀ATi的第三代Hyper-Z與nVidia第二代的Lightning Memory Architecture)、DirectX只支援到8.1版等等,都斷絕Matrox重返榮耀的一切可能,最終只能靠著多重顯示輸出等特殊功能,站穩一小塊利基市場。

▲ Matrox Parhelia AGP 128 MB。

開啟GPGPU時代的Nvidia

2006年11月8日,nVidia號稱耗費「近5億美元研發經費」與「4年開發時程」,世界首款對應DirectX 10(DirectCompute 4.x)統一著色器(Unified Shader)架構,支援32位元單浮點精確度的GeForce 8系列(以G80為首的Tesla 1.0微架構),為初代CUDA(Compute Unified Device Architecture,統一計算架構)的載具,堪稱是GPU發展史上最大突破,也是Nvidia正式邁入GPGPU的起點。G80還有一個值得大書特書的里程碑:Nvidia GPU的匯流排純原生PCI Express化,甩開AGP過渡期的橋接器,對GPGPU應用也有潛在助益。

Nvidia併購AEGIA而來的PhysX物理引擎,也順勢成功移植到CUDA,代表G80之後的Nvidia GPU均可讓坐在電腦前的人有機會「親自體驗如強烈的爆炸、有互動反應的碎片、逼真的流水,以及栩栩如生的角色等動態」(筆者才疏學淺,實在想不出更生動的描述,就只能原文複製貼上了)。

Nvidia G80問世之後,GPU定義也調整為「由數個兼備SIMD簡易性與MIMD高彈性的單指令多執行緒(SIMT)」核心,組成的單晶片多處理器,利於密集處理大量先天有高平行度且高度同質性的運算工作。」

SIMT的初衷,不外乎希望程式開發模型維持現有的形式,讓SIMD享有接近MIMD的自由度,企圖兼具兩者優點。以上這段「有字天書」看不懂也沒關係,反正只要知道GPU將「撈過界」主宰高效能浮點運算應用需求就夠了。

▲ Nvidia GeForce GTX8800(面積484平方公釐,台積電90奈米製程,6億8,100萬電晶體)。

顛覆ATi GPU技術發展方向的AMD併購案

2006年夏天,AMD以54億美元價碼併購ATi,震動業界,融合CPU與GPU的「Fusion大戰略」,也徹底改變繪圖技術的長期發展方向,更偏向「運算」而非「遊戲」,這到了2018年才漸漸改變

2007年5月14日,AMD初次對應DirectX 10與統一著色器架構的Radeon HD 2900(R600,初代VLIW5的TeraScale微架構)首度支援64位元雙倍浮點精確度,但效能僅單精確度五分之一。走上「超大+超熱+超貴=超生」之路的R600家族,也暫時中斷AMD「恐龍化」GPU、轉向「兩顆打一顆」的另類路線,如同1999年10月,用兩顆Rage 128 Pro組成的Rage Fury MAXX。GPU雙雄從此分道揚鑣。

無獨有偶的,此時AMD也是打算在伺服器CPU市場,用「雙餡水餃」對抗英特爾以排山倒海之勢撲來的鐘擺巨輪,接著AMD就慢慢沉淪,不管CPU還是GPU,兩顆還是打不贏人家一顆,還出現高階產品贏不了對方中階的慘況,陷入超過十年的黑暗期。

▲ AMD(ATi)Radeon HD 2900(面積420平方公釐,台積電80奈米製程,7億2千萬電晶體)。

DirectX 10戰爭2008年還有第二回合,也充分展現GPU雙雄的路線差距。開始支援OpenCL 1.1的AMD Radeon HD 4800 系列(R700)創下單晶片32位元單浮點精確度理論效能達1TFlops的里程碑。R700家族中繼承RV670、率先對應GDDR5記憶體的RV770,因兼備效能與價格競爭力,公認是AMD顯示晶片發展史上罕見的巨大成功。

Nvidia GT200的55奈米製程微縮版GT200B(晶粒面積470平方公釐「總算」帶來落後AMD將近一年的雙倍浮點精確度,但因「某種因素」,AMD並沒有因此得到什麼好處,就讓我們繼續看下去。

在這裡提醒一件有趣小事,Nvidia自從RivaTNT,就持續致敬知名物理學家(或電腦科學家)姓名,命名不同世代的GPU微架構,但卻無法從晶片名稱看出端倪。Tesla 2.0微架構的GT200將兩者合而為一(舊命名方式則變成晶片代碼,但後來就沒什麼「邏輯性」了),亦可從數字清楚看出同個GPU微架構的不同階段,像是「小改動」還是「大翻修」等。

筆者整理如下表:

說到AMD嘛……進入TeraScale後的「群島」命名只會讓人整理到吐血,到「星座」出現後才稍微好轉,只能寄望RDNA和CDNA分立後,能更簡單明瞭。

讓GPU名正言順接任高效能運算的IEEE 754-2008浮點數規範

截至為止,這些高階GPU看似具越來越強的可程式化能力,但取代CPU的「泛用性」,特別是高效能浮點運算,橫豎眼前仍有巨大的障礙物:完整支援IEEE 754浮點數規範,這也是微軟DirectX 11(DirectCompute 5.0)的重頭戲,過去缺乏遊戲規則(怎麼偷工減料誰也管不著)、由IEEE 754-2008版拍板定案的浮點乘積和(FMA),更是讓GPU從此有個可依循的公定標準,至於浮點運算單元的肥大化,就是GPU雙雄不得不硬扛的甜蜜負擔了。

當代兩位RISC大師合著的計算機結構教科書《計量方法》第五版「引領GPU更大幅接近主流泛用CPU」的重大革新,就即將成為現實,雖然那位贏家(從那時到現在也還沒輸過)踏出這步時,也是出師不利,導入台積電40奈米製程不順,Nvidia的Fermi微架構等於先後出了兩版,Nvidia旗艦GPU晶粒面積超過500平方公釐也成為約定俗成的常識。

AMD仍繼續推動Fusion大戰略,新一代x86處理器微架構Bulldozer(推土機)的雙整數運算核心共用一個浮點運算單元,擺明就是假以時日用GPU取代後者。

2010年12月15日的Radeon HD 6970(Cayman XT,389平方公釐引進VLIW4格式的第三代TeraScale微架構,將「四個簡單的向量運算單元(4D)加上一個專屬複雜特殊運算的單元」(T Unit)的VLIW5,改造為「四個可處理所有工作的運算單元」(4D T Unit),改善指令排程與執行單元的使用效率,為AMD真正邁向GPGPU的GCN(Graphic Core Next)微架構預作準備。2012年1月9日的28奈米製程Radeon HD 7970(Tahiti XT,352平方公釐導入第一世代GCN,對AMD來說,這時GPU才正式進入GPGPU的世界。

不過,AMD的GPU發展策略偏「運算」,長期來看對遊戲本業不利,可是畢竟資源有限,依舊只能單一微架構兩邊通吃,當Nvidia開始有餘力分別針對高效能運算和遊戲市場,研發「系出同源的微架構卻分而治之,善盡在本分保持卓越的責任」產品線時,AMD就要倒大楣了。如出一轍的情境,也重現英特爾那時的CPU鐘擺(Tick-Tock)節奏,看過本巨無霸處理器連載第一篇的讀者,都應該很清楚這是什麼意思。

2012年春天,Bulldozer微架構的AMD Opteron(3月20日)和Nvidia的GeForce GTX 680(3月22日)相隔兩天問世,也成為AMD一長串惡夢的開端──CPU和GPU戰線一起崩盤。

nVidia統治高效能運算的起點

今日超級電腦「賽豬公」指標Top500的清單裡,滿滿Nvidia旗艦GPU,早在2012到2014年,就被橫空出世的Kepler微架構奠定了難以撼動的基礎。不論遊戲還是運算,AMD GCN才剛面世沒多久就被Nvidia Kepler一擊K.O.,2015年獨顯市占率跌到歷史新低的「18趴」,一蹶不振到2018年,至今都尚未完全挽回頹勢。

事實上,Nvidia從Tesla到Fermi的GPU微架構,也和併購ATi的AMD一樣,偏「運算」而非「遊戲」,但俗語說的好:魚與熊掌難以兼得,加上Nvidia在40奈米製程的Fermi「燙到」(在尚未熟悉的先進製程打造巨大晶片),索性一改先推出頂規晶片、再一路往下砍規格變出中低階產品線的作風,Kepler微架構先搶灘中階市場,也完全讓運算專用的GPU獨立出來。

另外,Nvidia放棄「高時脈極致效益」的兩倍時脈Shader,轉向激增執行單元規模,正面挑戰AMD行之有年的「低時脈人海戰術」(前面都這麼多張規格比較表了,各位看過一定都會很有感)。受制於有效記憶體頻寬,因自從Nvidia NV40就缺乏更好的記憶體壓縮傳輸機制而不如對手,就算AMD再怎麼「堆高」執行單元,實際反應在效能表現的「效益」還是一直輸給Nvidia一大截,到了2012年,依然不得不業力引爆。新增運算指令和擴張執行單元看似簡單,但能否提供足夠的記憶體頻寬,使之充分發揮,那又是另一回事。歷史已經證明,要達成相近的效能表現,AMD總是需要比Nvidia更充沛的記憶體頻寬。

然後AMD GCN微架構的初代「高階」產品Radeon HD 7970(Tahiti XT)就這樣被Nvidia設定為「中階」的GTX 680(GK104)整個打爆了,這「對Nvidia是驚喜,對AMD是驚嚇」的結果(這段敘述好像也同樣適用於今年的中華職棒總冠軍戰),恐怕連Nvidia自己也深感意外。

2012年11月12日才姍姍來遲的高階GTX 780(GK110,但沒有完全啟用所有功能單元)一舉擴大領先優勢,2014年11月17日的Tesla K80(GK210)更確立Nvidia在高效能運算(HPC)的領先地位,AMD專業運算卡FirePro產品線(以及後繼者Radeon Instinct)就這樣被硬生生打垮。

從2012年初到2016年中旬,Nvidia和AMD均有志一同「黏死」在台積電28奈米製程好幾年(這紀錄日後才被英特爾14奈米牙膏打破),要在進步極度有限的製程擠出更多效能,最暴力也最穩當的手段莫過於讓「遊戲」和「運算」的微架構「兄弟登山,各自努力」。

所以Kepler後繼者Maxwell,被nVidia徹底精鍊成成專攻消費市場的過度時期微架構,以犧牲64位元雙倍浮點精確度的效能為代價,換取1.35倍的單一SP效能和「兩倍」能耗比。前面的Kepler是以中階市場當起點還不打緊,2014年3月22日,Maxwell竟然以售價149美元的GeForce GTX 750 Ti(GM107-400,148平方公釐在低階市場踏出第一步。

等一下,前面不是才扯一堆「GPU只會越來越肥」,怎麼現在體重又彷彿迴光返照到GPU剛誕生的嬰兒期了?別擔心,電晶體如同生命會自己找出路,Maxwell 2.0的頂規GM200讓nVidia GPU的晶粒面積首度突破600平方公釐大關,中階GM204也逼近400平方公釐。

既然此時此刻的AMD已被Nvidia打到毫無還手之力,也就沒有必要好好比較雙方規格細節的必要性了。

在此也「附贈」AMD六個GCN世代的旗艦晶片,也堪稱是AMD「GPU黑暗期」的象徵。在28奈米製程「加持」下,AMD也將旗艦GPU的面積增加到逼近600平方公釐

但AMD2018年「突然」發表的Vega 20,與背後暗藏的「雙軌戰略」,卻替AMD即將發動的大反擊,埋下充滿懸疑的伏筆。

GPU終極增肥大法:人工智慧

「人工智慧」是今日隨處可見、人人朗朗上口、一沒它就什麼都不對的關鍵名詞,人工智慧的深度學習與推論所需的各式各樣資料格式,結合高效能運算必須的64位元雙倍浮點精確度,催生更複雜的執行單元,也成為讓高階GPU更肥胖的催化劑。

我們先來回顧一下2013年的nVidia GPU產品時程表,原本Maxwell要直接演進到Volta。

但2014年Volta前就冒出Pascal了。擺脫28奈米製程糾纏後,16奈米製程Pascal吹響了眾多GPU重大革新的號角,例如獨立64位元浮點運算單元、支援8位元短整數與16位元短浮點、導入HBM2記憶體、號稱有PCI Express 3.0「5~12倍」效能的NVLink(用來連接IBM Power8處理器)、統合CPU GPU記憶體定址空間並提供需求分頁的Unified Virtual Memory、初代DGX-1深度學習系統等。

講白了,當仔細檢視Pascal後面那個徹頭徹尾為人工智慧量身訂做、兼顧學習和推測、甚至連消費型衍生型號都沒有的Volta,就不難理解Nvidia想小步快跑、降低風險的企圖。

我們就來瞧瞧Volta的執行單元長的什麼樣子,包含五種截然不同的獨立運算功能單元,一個次核心就有16個32位元浮點(FP32,CUDA Core的同義詞)、4個特殊運算(MUFU)、8個64位元浮點(FP64)、16個整數運算(INT)、與2個為人工智慧而生的張量運算核心(Tensor Core)。12奈米製程、電晶體210億、晶粒面積多達815平方公釐的GV100,擁有多達5,120個CUDA Core(SP),是Fermi完全體GF110的「十倍」,由此不難想見GPU進步幅度之快。

言歸正傳,本文主題專注GPU「體重」,如需了解技術演化的細節,像那票煩死人的不同浮點精確度的效能打折比例等,可參閱發表於2017年9月的舊文。讓我們回頭檢視Nvidia歷代旗艦級通用運算GPU的規格,算一算電晶體密度,當成判斷蘋果M1 Max的GPU等級的重要依據。

同樣走上雙軌之路的AMD

不過看在AMD近年企圖重振旗鼓、逐步重返榮耀的份上,也不得不提一下AMD的近況。AMD分別在2018年11月18日和2020年10月28日發表產品定位完全迥異的Vega 20(Radeon Instinct MI60)和Navi 21(Radeon RX 6900 XT)旗艦級GPU,也在2020年財務分析師大會宣示也將「運算」和「遊戲」分成兩個獨立體系:「運算導向的CDNA」與「遊戲優化的RDNA」。

我們再度升起搜尋巨無霸GPU的雷達。嗯,應當起自於128MB第三階Infinity Cache的貢獻,RDNA體系的旗艦Navi 21重回520平方公釐以上水準,真是可喜可賀。

但更讓人感到訝異的是:等了這麼多年,CDNA體系終於展現能與Nvidia旗艦GPU分庭抗禮的潛力。前陣子才發表的Radeon MI200系列,讓AMD首次擁有帳面硬體規格足以壓制Nvidia的武器,未來能否搶走Nvidia A100的生意,就端賴AMD能否有本事突破「CUDA生態系統封鎖網」了。

在此也再次好好比一比旗艦級運算用GPU的規格,讓我們繼續期待明年Top500榜單會有多少Nvidia A100被x86雙雄產品取而代之。

蘋果M1 Max的GPU大概屬於哪個位階?

行文至此,看了這麼多歷史巨無霸GPU,看到眼花撩亂,也該推測蘋果M1 Max GPU,大致上屬於那個「等級」。

我們先假定蘋果的GPU技術水準與微架構設計和AMD Nvidia相去不遠,我們再以電晶體密度粗估M1 Max的GPU換到老舊製程的面積。

M1 Max的5奈米製程電晶體密度約每平方公釐1.32億,略低於相同製程的M1,大致上是GPU雙雄7奈米(台積電)或8奈米(三星)製程產品的2~3倍。

GPU、64MB系統快取記憶體和512位元寬記憶體控制器區塊,大約占M1 Max五成面積(216平方公釐),如此一來,對應的是432~648平方公釐範圍,拿來跟時下旗艦級消費型顯卡比對,和Nvidia GeForce GTX 3090(GA102,628平方公釐,密度每平方公釐4,510萬)和AMD Radeon RX6900 XTX(Navi 21,520平方公釐,密度每平方公釐5,150萬)實屬相近等級,就算考量到時脈的巨大差距(這也會影響到電晶體密度),再差最起碼也該有中階顯卡水準。目前隨處可見的「M1 Max足以匹敵高階顯卡」的評論,就這個角度看,也看似所言不虛,尤其是同樣極度仰賴大型化快取記憶體的AMD RDNA 2.0可為適當的對照組。

也請別忘記,根據傳言,蘋果將有包兩顆M1 Max的Duo版和包四顆的Quadro版,屆時性能將很可能超越GPU雙雄的所有產品,即使比較的立足點並不公平。

假若那天蘋果想不開,想打造自家資料中心的人工智慧加速器,搞不好才是世界最巨無霸的GPU也說不定,雖然假使美夢成真,世人很可能也無從知曉。

(首圖來源:蘋果)

延伸閱讀:

關鍵字: , , , , , ,