Hot Chips 之後,熱潮逐漸消退的人工智慧處理器

作者 | 發布日期 2020 年 08 月 29 日 0:00 | 分類 AI 人工智慧 , Google , 晶片 Telegram share ! follow us in feedly


俗語說得好:海水退潮之後,才知道誰沒穿褲子。但歷史的教訓往往證明殘酷的事實:結果站在浪裡的所有人,全部都沒有穿褲子,且也統統沒有 30 公分。

處理器業界的年度盛事 IEEE HotChips,才剛在今年 8 月以全部線上活動型式結束了第 32 屆,連擠 4 年牙膏的 IBM 與英特爾總算換了一條全新牙膏,真是可喜可賀。

但另一方面,分別在雲端服務和終端硬體執人工智慧牛耳的 Google 與 nVidia,卻也學到了「擠牙膏」精髓,前者讓 2018 年就問世的第三代 TPU,從 2018 年 Google I/O 講到 2020 HotChips,後者在 HotChips 發表的內容,完全承襲 GTC 2000 的簡報,唯一差別只有把華為 Ascend 910 人工智慧處理器和英特爾支援 BF16 格式的「新型 Xeon」Cooper Lake-P 拖出來狠狠打一頓。

總之,我們來瞧瞧 HotChips 32 的 Google 第三代 TPU 與 nVidia A100。

講了三年總算勉強講完的 Google TPU v3

Google 這間公司最令人稱許之處,在於恐怖的「前瞻執行力」,每當眾人還在清談「技術趨勢」之際,就突然石破天驚的昭示天下:你們還在嘴砲的東西,我們早就應用到實際產品。諸多豐功偉業的最知名案例,莫過於 2013 年底,Google 爆炸性公開「規劃部署已達 3 年」的 B4 資料中心廣域網路,開大規模商業化軟體定義網路(SDN)之先河。

早在 2015 年就投入內部應用的 Google TPU,更是近年來的經典案例,接著 Google 也很迅速推陳出新,2017 年推出深度學習第二代 TPU,第三代 TPU 更早在 2018 Google I/O 就亮相了。

但 Google 也隨即「擠牙膏之神」上身,2019 年 HotChips 31 教程僅提到部分資訊,到 2020 年才公開細節全貌。

我們都有充分的理由相信,第四甚至第五代 TPU,不是早就上線服役也該早在路上了。

2019 年比較對手是 nVidia V100,結果 2020 年看不到第四代 TPU 較量 V100,讓人感覺有點奇怪。

TPU v3 概觀可視為 TPU v2 的雙倍放大版,散熱系統從氣冷改為液冷,也是主機板最顯眼的特色。

TPU v3 仍舊著重持續提升記憶體頻寬(+30%)與容量(加倍),拜液冷之賜,時脈也有成長(+30%)。

TPU v3 的指令集架構是 332 位元長的超長指令集(VLIW),VLIW 指令包內總計有 2 個純量指令、4 個向量指令(其中 2 個是記憶體載入/回存)、2 個矩陣(Matrix)指令、6 個立即值(Immediate)與一個雜項(Misc)應用。

強化多晶片連結匯流排,打造更大規模的「人工智慧超級電腦」,更是 TPU v3 的重頭戲,也就是上圖那個「4x Nodes」。

同樣一片系統主機板裝 4 顆 TPU,TPU v3 組成的「人工智慧超級電腦」,擁有前代 8 倍以上效能、8 倍記憶體容量、4 倍晶片數量與 4 倍的最大裝置設定數,可切割成 256 個獨立運算平台分租給客戶。

順便一提,現今已知關於 Google TPU 的專利多達 50 份,亦不乏詳細描述第三代 TPU 的內部架構細節,也是眾多有志進軍人工智慧晶片的冒險者,抽絲剝繭的研究對象。

但這對使用 Google Cloud AI 的用戶,甚至大多數 Google 部門來說,其實並不重要,他們只要用得爽快、不需要「為了喝牛奶自己蓋一座牧場」就夠了。

靠 GPU 基本盤穩扎穩打的 nVidia A100

nVidia 以泛用化 GPU 為基礎,站穩高效能運算市場,並將觸角逐漸延伸到人工智慧和自駕車輛等新興應用領域,使 2020 年夏天市值連續超車英特爾和三星,證實外界多麼看好「皮衣教主」昭示天下的「美好未來」。無論個人電腦與高效能運算領域,從「電競筆電非有 Max-Q 不可」現象到超級電腦 Top500 清單滿滿的 nVidia GPU,優勢地位看似牢不可破。

nVidia 旗艦 GPU 也隨著製程演進而持續「恐龍化」,Ampere 世代之首 A100 是一顆台積電 7 奈米製程、540 億電晶體的巨獸,像更多執行單元、更大記憶體子系統頻寬、一直更新的 DGX 超級電腦等,是各位也都耳熟能詳,甚至早就令人哈欠連連的「標準劇情」了。

關於人工智慧應用,nVidia A100 最重要的特色,莫過於自行定義的 TF32(Tensor Float 32)浮點數格式。講白了就是「截長補短」,既然 Google BF16 犧牲掉 FP32 的精度,維持動態範圍不變,那就讓精度和 FP16 一樣吧,神奇的 19 位元長度 TF32 就這樣誕生了,兼具 FP32 的動態範圍和 FP16 的精度。nVidia 之所以這樣大費周章創造新格式,根本目的不外乎要降低記憶體頻寬和容量需求,和 Google 發明 BF16 如出一轍。

理所當然的,TF32 在 A100 一定跑得很快,因所需頻寬僅為前代 V100 一半或三分之一,更能餵飽嗷嗷待哺的龐大 Tensor Core。

但這件事的背後,隱隱約約透露 nVidia 長期領先 AMD(ATI)的根本原因與基本思維:記憶體頻寬,這件事早從 2004 年 NV40(GeForce 6 系列)記憶體控制器內建壓縮傳輸機能,相關技術持續演進並陸續申請專利,就已埋下了種子。過去十幾年來,AMD 或 ATI 的 GPU,需要更多記憶體頻寬,才能實現同等級的效能水準,絕對不是偶然。

大概整批帶槍投靠英特爾的前 AMD 團隊過去吃了不少悶虧,這次替英特爾重新打造 Xe 繪圖架構時,也很刻意提到「End-To-End Compression」,只是不知道會不會不小心踩到 nVidia 的專利地雷。

當 GPU 踏入高效能運算和人工智慧,「每筆運算可平均分配到的記憶體頻寬,持續穩定的下滑中」,更讓提高運算效能這件事,絕非區區增加幾個特化指令與擴張執行單元,即可迎刃而解,更需搞定頻寬這件事,一旦頻寬不足,就發揮不出完整的運算效能。

聽說 nVidia 下一代 GPU「Hopper」將改弦易轍,改走多晶片 Chiplet「包水餃」路線,也許 nVidia 在多晶片連結架構部分,將帶來讓人感到驚奇的技術突破也說不定,讓人對明年 HotChips 33 多抱持一分期待。

人工智慧熱潮的消退:先講求不要餓死再求發展

話說回來,我們就不得不探究一個大哉問:為何越來越多晶片廠商開始「擠牙膏」?要麼不是受摩爾第二定律詛咒,產品技術難以短期內飛躍性提升,要麼就是講再多對我也沒任何實質好處,還不如少講一點悶聲發大財。

不過這幾年,難道人工智慧晶片不是很夯的話題嗎?2017 年 HotChips 29,不就是從主題演講到議程,從泛用處理器、GPU、ASIC 到 FGPA,統統「人工智慧滿天下」?如此沉默,對公司的未來妥當嗎?

很遺憾的,人工智慧晶片從 2018 年起,以中國相關領域新創公司為首,熱潮急速退燒,像中國 DEEPHi(深鑑科技)被 FPGA 巨頭賽靈思收購,已經算是最好的退場。

即使美國企業亦不可免俗,就算公司不會倒,也不保證產品線不會收掉。像這些年來癡迷自駕車和人工智慧,耗費數百億美元「生氣亂買公司」的英特爾,2018 年宣布中止 Xeon Phi 產品線,決定整個砍掉重練,由 2017 年底來自 AMD 的 Raja Koduri 重建貨真價實的 GPU。2019 年底以 20 億美元購併以色列 Habana Labs 並在隔年 2 月停止 NNP-T1000(代號 Spring Crest,還宣稱跟百度合作),也意味著 2016 年用 3.5 億美元買下的 Nervana 形同棄兒,英特爾人工智慧平台事業群負責人、Nervana 聯合創辦人 Naveen Rao 隨即離職,一點都不讓人意外。

英特爾連續公開栽了兩次(實際上應該更多),事後諸葛的後見之明與背後補刀的內幕爆料,均朝向「做出來的東西根本不能用,也無法符合軟體開發者和潛在客戶的需求」。

所以這也是當人工智慧漸漸在 HotChips 退燒後,為何 Google 和 nVidia 可站在台上活好好的主因:Google 很清楚自身需要,快速演進三代(應該更多)的 TPU 就是為了自家 Google Cloud AI 和其他服務量身訂做(蘋果塞在自己晶片內的 NPU 也是一樣狀況)。nVidia 則是擁有龐大 GPU 市占率、累積十多年的 CUDA 與高效能運算的「基本盤」足以先養活自己,日後再慢慢發展。

反觀之前那票一窩蜂狂衝「人工智慧新大陸」的勇者,又有幾間有本錢和能耐,先不求餓死,再講求和客戶攜手並進的共同勝利?講更白一點,你會相信中國那些開發數位貨幣挖礦晶片的廠商,被迫轉型做出來的人工智慧晶片,可以迅速得到指標性客戶的青睞?

天下任何一間求生存的企業,無不企求有所謂的「現金母牛」和忠實客戶,才為穩定營運的基礎。我們可以猜猜看,明年 HotChips 33 還剩下哪些倖存者,有那條命繼續站上人工智慧相關議程舞台,如果那時武漢肺炎疫情已劃下句點,那就更好了。

(首圖來源:shutterstock)

延伸閱讀:

關鍵字: , , , ,