在人工智慧晶片戰場追逐 GPU 背影的英特爾

作者 | 發布日期 2020 年 02 月 11 日 8:30 | 分類 AI 人工智慧 , GPU , 晶片 follow us in feedly


環顧歷史名將如拿破崙、古德林、隆美爾,乃至波斯灣戰爭的美國陸軍將領,一談到「攻勢」,幾乎無不強調「追擊」的重要,讓敵軍毫無站穩腳跟鞏固和重組的機會而一瀉千里。

反過來說,當這簡單道理套用到商業競爭,意義就不外乎「產品如果無法準時到位(Time To Market)」,特別是在人工智慧這種一堆人還搞不清楚狀況的新興應用領域,或像半導體這種成本和售價會隨技術演進快速滑落的產業,很可能一下子就被競爭對手一舉衝垮,讓產品開發工作左右支絀,無法建立一條穩固的市占率防線,接著陷入惡性循環,難以翻身。

2016 年 3 月 5 日:nVidia 發表「總算擺脫黏了 4 年的台積電 28 奈米製程」、推進到台積電 16 奈米和三星 14 奈米 Pascal,支援 FP16 半精確度浮點、8 位元整數與相對應的內積向量指令(Vector Dot Product),也具備 NVLink 連接 8 顆 GPU 的延展性,踏出 nVidia GPU 進入人工智慧應用的第一步。

2016 年 5 月 Google I/O:Google 發表第一代推論用的第一代 TPU。

【延伸閱讀】:【Hot Chips 29】淺談 Google 的 TPU

2016 年夏天:英特爾購併「聲稱產品效能將比 GPU 高至少 10 倍」的 Nervana,就為了跟 nVidia GPU 競爭。

【延伸閱讀】:英特爾將出資高於 4 億美金購買機器深度學習的新創公司 Nervana

2016 年 11 月 17 日:英特爾公開 Nervana 代號 Lake Crest 的初步成果,但製程仍停留在台積電 28 奈米,且過沒多久就因 nVidia 推出 Volta 而失去意義。

2017 年 3 月 29 日:nVidia 發表採用 Tegra X2 的「嵌入式人工智慧運算裝置」Jetson TX2,嚴格說來也算是 nVidia GPU 應用的延伸,但早從 2014 年 4 月底就出現的 Jetson 產品線,怎麼看都有一股「幾年來替進攻手機平板都以失敗收場的 Tegra 系統單晶片找出路」的味道。

2017 年 5 月 Google I/O:Google 繼續「按表操課」發表支援浮點運算(Bfloat16 浮點格式)、可同時用於訓練和推論的第二代 TPU。

2017 年 6 月 21 日:nVidia 公開台積電 12 奈米製程「原本產品時程表並沒有」的 Volta,內建 640 個 Tensor Core(張量核心),可執行 4×4 16 位元浮點乘積和,應用於特徵辨識的卷積運算(Convolutional Neural Network,CNN),這讓 Volta 成為 nVidia 史上首款針對人工智慧量身訂做、兼顧「學習/訓練」與「推論/預測」的 GPU 微架構。

Volta 的訓練效率高達 Pascal 的 12 倍,推論性能也達 6 倍之譜,這讓 Nervana 的「Lake Crest 至少有 GPU 十倍」變得毫無意義,nVidia 也藉由 NVswitch 打造出 16 顆 GPU、數量為 DGX-1 兩倍的 DGX-2,英特爾只能重新設計產品,也一再延誤開發時程,直到承諾 2019 年底推出新晶片,屆時距離購併案已超過 3 年。

2017 年 8 月 14 日:AMD 發表「早就簡報講很久」的 Vega(Global Foundry 14 奈米製程),支援 FP16 / INT16 / INT8 包裹式(Packed)計算,並鎖定 FP16 與 INT8 精度,新增約 40 個新指令,也為影像匹配此類應用,提供 SAD(Sum of Absolute Differences,絕對誤差和演算法)指令。AMD 當然也會宣稱「擁有完整的 Software Stack」,至於成效如何,就請各位自由心證,筆者不予評論。

2017 年 11 月 8 日:來自 AMD 的 Raja Koduri 空降英特爾並擔任資深副總裁,宣示打算「砍掉重練」整個繪圖技術,拋棄對 x86 指令集相容性的執念,從頭到尾打造貨真價實 GPGPU,2019 年 3 月公布 GPU 架構的稱呼「Xe」和一個讓人摸不著頭緒、看起來很像「在所有硬體平台包含 FPGA 都能跑的 OpenCL」的「軟體堆疊」OneAPI,就是最後的解答。

【延伸閱讀】:英特爾與 AMD 把各自擅長的 CPU、GPU 送作堆,背後脈絡是什麼?

2018 年 5 月 Google I/O:Google 再接再厲,發表整體效能和規格是前代兩倍的第三代 TPU,不過依然還是 Google 自研自用就是了。

2018 年 7 月 23 日:從 Larrabee 開始掙扎超過十年,英特爾總算完全放棄「超級多核心 x86 處理器絕對無所不能」的南柯大夢,宣佈放棄 Xeon Phi 產品線。有趣的是,停產通知提到「市場對產品的需求已轉移到其他英特爾產品」,但這些產品並不存在於英特爾產品線,沒有任何產品提供類似 Xeon Phi 的性能和功能,這些需求「轉移」到 nVidia 的機率可能還高一點。

筆者 2017 年底就預期 Xeon Phi 的處境非常危險,「x86 義和團」的最後碉堡即將失守,不幸一語成讖,早知就去買樂透。

【延伸閱讀】:【x86 興衰史】奠定 Intel Xeon Phi 技術基礎的「x86 處理器顯示卡」:Larrabee

2018 年 7 月 26 日:Google 發表適用物聯網、「可以在消耗極少資源和能源的情況下提供絕佳效能,因此能夠在邊緣部署高精確度 AI」的邊緣推論用 TPU,這也讓 Google TPU 踏出自家資料中心,與一群盤據半導體市場已久的豺狼虎豹捉對廝殺。

【延伸閱讀】:Google 物聯網戰略啟動,推 Edge TPU 進軍邊緣運算

2018 年 8 月:nVidia 發表採用 Xavier 系統單晶片的 Jetson Xavier,同時應用於邊緣 AI 運算及自動駕駛系統。

2018 年 9 月 20 日:採用台積電 12 奈米製程的 Turing,融合兩者之長,結束了短暫的「消費型」(Pascal)和「專業型」(Volta)分立局面,Tensor Core 增加了新 INT8 和 INT4 精度模式,FP16 半精度能完整支援經常用到的矩陣融合乘加(FMA)運算。

【延伸閱讀】:NVIDIA Turing 新品發不停,Tesla T4 聚焦資料中心推論應用

此外,Tensor Core 也不再只是「限定專業應用」,可用來執行消除混疊的深度學習程式(深度學習超級採樣,DLSS),利用先前向執行 Neural Graphics Framework 的超級電腦,餵食遊戲畫面進行訓練神經網路的學習成果,渲染出接近 64 倍取樣的畫面濾鏡,再套用回玩家的遊戲畫面,柔化畫面鋸齒邊緣。

2019 年 1 月 7 日:AMD 發表採用台積電 7 奈米製程的 Vega,晶片大幅縮小,性能大幅提升,然後我們現在也知道為何 AMD 初代 7 奈米製程 APU 的繪圖核心還是 Vega,不是更新一代的 Navi 了。

2019 年 3 月 19 日:nVidia 再次發表「邊緣 AI 超級電腦」Jetson Nano,也開始有開發者比較與 Google Edge TPU 的優劣勝負。

2019 年 5 月 21 日:nVidia 利用 Anandtech 的報導,倒打英特爾一耙,在官方部落格狂吃英特爾某篇官方文章《Intel CPU 在推論勝過 nVidia GPU》的豆腐。預計 2020 年第二季推出的英特爾下一代 Xeon 平台 Whitley,首款 CPU Cooper Lake(還是繼續擠 14 奈米製程牙膏)會支援 Bfloat16 浮點格式,屆時各位可以期待 nVidia 會不會再如法炮製一番。

【延伸閱讀】:英特爾強調 NVIDIA Tensor Core GPU 極適合推論作業的原因

2019 年 7 月 7 日:AMD「擴大製程領先優勢」發表台積電 7 奈米製程的 Navi,重點集中在結束漫長 GCN 時代的全新 RDNA(Radeon DNA)SIMT 執行單元結構,在人工智慧相關並無著墨,但業界盛傳第二代 RDNA 將支援 Google Tensor Flow 的 Bfloat16 浮點格式,也有人在擔心搞不好這又會讓 AMD 顯示卡再被一大票數位貨幣礦工搶得一乾二淨,再度上演有錢也買不到顯卡之戲碼。

2019 年 8 月:nVidia「持之以恆」繼續在 HotChips 談論自家多晶片可擴展式推論晶片研究案,意思就是 nVidia 故意宣示除商品外,還有「餘裕」進行額外前瞻性技術研發工作就對了。

2019 年夏天,英特爾看似開心的跟百度宣布合作,購併 Nervana 滿 3 年的人工智慧晶片,看似前程似錦,連潛在客戶都談好了。

【延伸閱讀】:百度、英特爾聯手打造新一代 Nervana NNP 晶片,效能提升 3~4 倍
【延伸閱讀】:英特爾發表最新 AI 晶片 Nervana,把 Google、台積電技術都用上了!

2019 年 11 月 8 日:NVIDIA 宣布推出「全球尺寸最小的邊緣 AI 超級電腦」Jetson Xavier NX,不知不覺中,在這幾年內,nVidia 的 Jetson 家族已枝繁葉茂。

【延伸閱讀】:NVIDIA 發表全球最小邊緣 AI 超級電腦,Jetson 家族讓新創公司面臨更大壓力

2019 年 11 月 13 日:英特爾總算「使命必達」準時在 2019 年底推出 Nervana NNP 產品線,包含深度學習導向的 NNP-T1000(Spring Crest,性能號稱是 Lake Crest 的 3~4 倍)與推論專用的 NNP-I1000(Spring Hill),宣稱樣品已經送到客戶(百度、Facebook)手上,不只現場實際較量 NNP-I1000 和 nVidia T4,可用不到 2 倍數量達成 3.68 倍的效能,也同時宣布 2020 年推出「20 倍邊緣推論性能」、源自 2016 年某金額不明購併案的 Movidius 體系產品。

但短短一個月後,2019 年 12 月 16 日,英特爾宣布以 20 億美元收購以色列 AI 晶片新創公司 Habana Labs,瞬間風雲變色,2020 年 2 月就傳出英特爾將「部分放棄 Nervana」、停止 NNP-T1000 開發的消息,但有鑑於 NNP-I1000 本質上根本就是「純正英特爾血統」的產物,這也意味著 Nervana 併購案完全失敗了。

【延伸閱讀】:3.5 億美元收購失敗?英特爾將停止 NNP-T 開發,專注 Habana Labs

「剛剛好」整件命案的所有參與演員:命案現場的英特爾、Habana Labs、坐在板凳一旁看戲的 AMD 與 nVidia,都是 2019 年 IEEE Hotchips 31 的台上貴賓(大概因家大業大格局大,活動的餐點飲料包含酒類據說都由英特爾贊助買單),我們就來看看,英特爾耗費三年多做出來的成果,以及瞧瞧 NNP-T1000 為何被閃電腰斬的可能原因。

畢竟現在這票所謂人工智慧深度學習等的新興應用,無論從硬體架構到資料處理格式到框架到應用程式函式庫等等,很多部分都是高度客製化,少有業界共通的公開比較基準,單純比較數字「賽豬公」的意義並不大,筆者也不會在這裡仔細介紹英特爾兩顆晶片的技術細節。

但透過規格比較,可清楚看到兩件事實:

Spring Crest 和 Spring Hill 根本是兩個完全不同的技術體系,前者完全繼承 Nervana,後者則是根正苗紅的「英特爾本家」,大量引用現有 Ice Lake 技術。

Nervana 的預設對手就是 nVidia 的旗艦級 GPU,連晶圓代工業者都是台積電。

Nervana NNP-T1000 慘遭殺害,究竟有哪些可能的兇手?

  • 成本太高:都這個時候了,還在台積電 16 奈米製程?且聽說台積電 16 奈米的主要產地正位於因武漢肺炎而封城的南京?但 Habana Labs 目前兩顆晶片也都是台積電 16 奈米耶?這裡由不合邏輯。
  • 政治因素:英特爾不願意看到重要的產品交給台積電生產?可是這件事不是很久以前該知道了嗎?Habana Labs 也是台積電生產啊,所以這也不合理。
  • 客戶不滿:難道先期導入的客戶並不滿意產品的實際表現?
  • 需要客戶:Habana Labs 已搶到「超大規模的客戶」,甚至「搶走英特爾手上煮熟的鴨子」,所以才有 20 億美元的購併價值?
  • 軟體不行:手上可掌握的軟體資源和「生態系統」技不如人?
  • 規格不利:Hanaba Labs 的推論晶片 Gaudi 可支援原生的乙太網路界面走 RDMA,這難道對大型雲端客戶來說,算是殺手級的規格優勢?

總之,只有英特爾和時間才會告訴我們誰是真正的兇手,也很有可能真相永遠不會大白。

到頭來,從 Nervana 到 Hanaba Labs,不論訓練還是推論,頭號假想敵依舊是 nVidia 的 GPU,依然還是 Volta 和 Turing,連比較圖的顏色都刻意挑「nVidia 綠」。

但說到英特爾購併公司這件事,半導體製程優勢開始崩潰,剛好就是宣布要「從 PC 公司轉型為驅動雲端計算和數以億計智慧互聯計算裝置」,也差不多是「最後的英特爾 x86微架構」Skylake 上市時,接著一直花大錢「生氣亂買公司」才開始的。

  • 2015:Altera 167 億美元。
  • 2016:Nervana 3.5 億美元。
  • 2016:Movidius 金額不明。
  • 2017:Mobileye 153 億美元。
  • 2019:Habana Labs 20 億美元。

這樣一路看下來,似乎瞬間明白了什麼。

(首圖來源:英特爾)

關鍵字: , , , , , , ,