從先進封裝技術發展,檢視 AMD 的超級電腦布局

作者 | 發布日期 2020 年 07 月 17 日 11:06 | 分類 GPU , 晶片 , 處理器 Telegram share ! follow us in feedly


「包水餃」不但是傳統技藝,更將是尖端科技。

以《戰略緒論》一書聞名的近代法國戰略大師薄富爾曾說:「戰略的要義是『預防』而非『治療』,『未來和準備』比『現在和執行』更重要。」半導體業界亦同,當摩爾定律所預言的製程微縮曲線開始鈍化,將不同製程性質的晶片,透過多晶片封裝包在一起,以最短的時程推出符合市場需求的產品,就成為重要性持續水漲船高的技術顯學。

而這些先進晶片封裝也成為超級電腦和人工智慧的必備武器。別的不提,光論 nVidia 和 AMD 的高效能運算專用 GPU、Google 第二代 TPU、無數「人工智慧晶片」,就處處可見 HBM 記憶體的存在。

畢竟天底下沒有面面俱到的半導體製程,觀察到先進製程晶圓廠每隔 4 年成本倍增的「摩爾第二定律」,也突顯了電晶體單位成本越來越高的殘酷現實。AMD 處理器從 7 奈米製程開始全面性「Chiplet 化」,將 7 奈米製程的 CPU 核心和 12 奈米製程的 I/O 記憶體控制器分而治之,實乃不得不然。

發展方興未艾的先進封裝技術

也因此,無論台積電還是英特爾,無不拚命加碼,相關產品也如雨後春筍一個個冒出頭來,而 AMD 更在未來產品計畫,大剌剌寫著「融合 2.5D 與 3D 的 X3D 封裝」(雖然大概也是直接沿用台積電的現有技術),以達成超過時下產品十倍的記憶體頻寬密度。

稍微替各位複習一下什麼是「2.5D」封裝,台積電擁有超過 60 個實際導入案例的 CoWos(Chip-on-Wafer-on-Substrate)算是這領域最為知名的技術,包含近期奪下超級電腦 Top500 榜首的 Fujitsu A64FX。英特爾用自家 EMIB(Embedded Multi-Die Interconnect Bridge)將 Kaby Lake 處理器與 AMD Vega 繪圖核心「送作堆」的 Kaby Lake-G,也曾是轟動一時的熱門話題。

有別於「2D」的 SiP(System-in-Package),2.5D 封裝在 SiP 基板和晶片之間,插入了矽中介層(Silicon Interposer),透過矽穿孔(TSV,Through-Silicon Via)連接上下的金屬層,克服 SiP 基板(像多層走線印刷電路板)難以實做高密度佈線而限制晶片數量的困難。

「疊疊樂」的 3D 封裝就不難理解了,台積電就靠著可減少 30% 的封裝厚度 InFO(Integrated Fan-Out),在 iPhone 7 的 A10 處理器訂單爭奪戰擊敗三星,終結了消費者購買 iPhone 6S 還得擔心拿到三星版 A9 的尷尬處境(筆者不幸曾是受害者之一)。但 3D 封裝的散熱手段與熱量管理,也是明擺在半導體產業界的艱鉅挑戰。

英特爾相對應的 3D 封裝技術則為 Foveros。最近正式發表、代號 Lakefield 的「混合式 x86 架構處理器」,堆疊了「1 大 4 小核心」的 10 奈米製程(代號 P1274)運算晶片、22 奈米製程(代號 P1222)系統 I/O 晶片和 PoP(Package-on-Package)封裝的記憶體,待機耗電量僅 2mW。

英特爾 2019 年 7 月公布的 Co-EMIB,用 2.5D 的 EMIB 連接多個 3D 的 Foveros 封裝,「整合成具備更多功能」的單一晶片。為 EMIB 概念延伸的 ODI(Omni-Directional Interconnect)則用來填補 EMIB 與 Foveros 之間的鴻溝,為封裝內眾多裸晶連接提供更高靈活性,細節在此不論。

連接封裝內多顆裸晶之間的匯流排也是不可或缺的技術。

英特爾在 2017 年將 EMIB 連接裸晶的「矽橋」(Silicon Bridge)正式命名為「先進介面匯流排」(AIB,Advanced Interface Bus)並公開免費授權,2018 年將 AIB 捐贈給美國國防先進研究計劃署(DARPA),當作免專利費的裸晶互連標準,MDIO(Multi-Die I/O)則是 AIB 的下一代。台積電相對應技術則為 LIPINCON(Low-voltage-INPackage-INterCONnect),規格與英特爾互有長短。

超級電腦用的系統單晶片並非 IBM 和 Fujitsu 的專利

長期關心 ARM 指令集相容處理器與超級電腦的讀者,想必對先前採用 Fujitsu A64FX 處理器打造的日本理化學研究所的「富岳」並不陌生。這顆台積電 7 奈米製程並 CoWoS 2.5D 封裝 4 顆 8GB HBM2 記憶體的產物,堪稱當代最具代表性的「超級電腦專用系統單晶片」,讓人不得不想起十幾年前的 IBM BlueGene/L。

曾在 21 世紀初期靠著「地球模擬器」(Earth Simulator)獨領風騷兩年多的 NEC,其 SX 向量處理器的最新成員 SX-Aurora TSUBASA,也是台積電 16 奈米製程、2.5D 封裝 6 顆 8GB HBM2 記憶體的超級電腦心臟。

而英特爾的 Xeon Phi 系列更是知名代表,透過 2.5D 封裝包了 8 顆 2GB MCDRAM(Multi-Channel DRAM),可設定為快取記憶體、主記憶體或混合兩者之用。雖然 Xeon Phi 家族兩年前慘遭腰斬,中斷自從 Larrabee 以來的「超級多核心 x86」路線,英特爾決定整個砍掉重練,一步一腳印重頭打造「傳統 GPU」當作未來高效能運算與人工智慧應用的基礎,但異質多晶片封裝的重要性仍不減反增,最起碼被英特爾從 AMD 挖角、主導 GPU 發展的 Raja Koduri,自己是這樣講的,也沒什麼懷疑的空間。

不過 AMD 也並未缺席,並看似有後來居上的氣勢,而且這並非突發奇想,早在 2010 年之前,就開始進行長期研究,至今超過十年,並「很有可能」以 EHP(Exascale Heterogenous Processor)之名開花結果,融合 2.5D 與 3D 封裝的 X3D 則是達成 EHP 的關鍵。

Exa 意指 Peta 的 1 千倍,也是近年來超級電腦的下一個競爭指標,像預定採用 AMD Zen 2 世代 EPYC 處理器的美國國家核能安全管理局 El Capitan 超級電腦,理論運算效能就超過 2ExaFlops。

AMD 自從 2007 年購併 ATI 之後,整合處理器與繪圖核心的 APU 之路,一直走得相當掙扎,遲遲難以找到適合的產品規格與市場定位,不是 CPU 不夠好、GPU 不夠強、就是兩者都不上不下,到了 Zen 2 世代才算脫胎換骨。

這些年來,AMD 在超級電腦市場逐漸邊緣化,今年 6 月的 Top500 只剩下 10 台 AMD CPU 和一台 AMD GPU,更需要強力的新兵器,才能「突破英特爾和 nVidia 的封鎖」。身為「超級電腦 APU」的 EHP 就成為 AMD 默默進行的新方向。

以加拿大 ATI 身分在 2010 年申請「藉由假矽穿孔替 3D 封裝進行導熱」(Dummy TSV To Improve Process Uniformity and Heat Dissipation)專利為起點,AMD 一路累積了「記憶體運算的快取資料一致性」(2016 年)、「3D 晶粒堆疊的熱量管理」(2017 年)、「擁有極致頻寬與可延展性能耗比的 GPU 架構」(2017 年)、「記憶體內運算的陣列」(2018 年)、「迴圈脫離預測(2018 年)以改善閒置模式的效率」到「混合 CPU 與 GPU 的動態記憶體管理」(2018 年)等成果,確定了 AMD 在 2015 年的財務分析師大會透露的「伺服器專用 APU」與當年 7 月 IEEE Micro 發表的「藉由異質運算實現百億億級運算」(Achieving Exascale Capabilities through Heterogeneous Computing)計畫並不是玩假的,更何況現在 AMD 當家作主的還是一位以務實聞名的全球薪酬最高女性執行長。

根據已公開的資料,EHP 概略規格如下,但後面勢必將隨著技術演進而有更動:

  • 32 個 CPU 核心(當時是 8 顆 4 核心 CCD)。
  • 8 顆 32 個 GPU CU,總計 256 CU 與 16,384 個串流處理器(那時預定是 GCN 第五代的 Vega,看來將會推進到 CDNA)。
  • 8 塊 4GB HBM2 記憶體堆疊。
  • 時脈 1GHz 時,雙倍浮點精確度理論效能為 16TeraFlops,如十萬顆組成超級電腦,就是 1.6ExaFlops,預估耗電量為 20MW。
  • AMD 在 2015 年 7 月 IEEE Micro 專文,表示 32 個 CPU 核心、320 個時脈 1GHz 的 GPU CU(20,480 個串流處理器)、3TB/s 記憶體頻寬、160W 功耗,是能耗比最好的組態,總之實際的產品一定會變。
  • EHP 和 X3D 的技術資產會「推己及人」到 Zen 3 世代 EPYC 處理器「Milan」的可怕傳言(像 10 顆 CCD 湊 80 核心或塞 HBM2 當 L4 之類的),一直沒有停過。

EHP 也有配置晶片封裝以外的外部記憶體,像斷電後資料不會消失的 NVRAM(Non-Volatile RAM,如 英特爾/Micro 的 3D Xpoint 和發展中 SST-MRAM 等)和「記憶體內運算」的 PIM(Processing-In-Memory,記憶體內建位元運算電路),相關的動態記憶體管理與快取資料一致性,也是 AMD 需要克服的技術門檻,至於軟體環境的完備性,更將是 AMD 能否追上 nVidia 的最核心因素。

同場加映:nVidia 也沒吃飽閒著

近來因「光明的未來前瞻性」而讓公司市值一舉超越英特爾的 nVidia,在高效能運算、人工智慧與自駕車等領域的優勢地位幾乎是牢不可破。除了帳面硬體規格,發展了十多年的 CUDA 應用環境生態、遠遠超越英特爾和 AMD 的 GPU 虛擬化(這讓客戶使用 AMD GPU 部署雲端個人電腦的效益會明顯不如 nVidia,雲端服務業者的虛擬 GPU 亦同,比較一下可負荷用戶端數量,就知道差別有多大了)和更多「不足外人道也」之處,才是支撐 nVidia 股價的真正根基。

將話題拉回多晶片封裝這件事,就算不論以「訓練」為主的高階 GPU,nVidia 連「推論」用的晶片研究案都走向「多晶片封裝延展性」。

但各位有沒有想過一個更有趣的可能性:既然 nVidia 高階 GPU 都這麼大顆,幹麼不乾脆「順便」包一顆高效能的 ARM(或 RISC-V)指令集相容處理器,不再是英特爾、AMD 處理器的「附屬品」,讓 GPU 變身成「可自行開機的超級電腦系統單晶片」?

事實上,nVidia GPU 內本來就有內建好幾顆簡稱為 Falcon(Fast Logic Controller)的微控制器,用來輔助 GPU 運算處理,像支援影像圖形解碼到安全性機制,或減輕 CPU 執行驅動程式的負擔,如以前因為 Windows 作業系統的延遲程序呼叫(DPC,Deferred Procedure Call)會逾時而不能進行的排程等。

2016 年,nVidia 先採用柏克萊大學的開源 RISC-V 指令集相容處理器 Rocket,開發出第一代 Falcon 微控制器,2017 年第二代產品擴展到 64 位元,並自行新增自定義的新指令。前述由 27 顆封裝而成的 RC18 推論晶片,也是 RISC-V 核心,每秒可執行 128 兆次推論,功耗僅 13.5W。

那麼未來,假如 nVidia 將「更多的工作」搬到 GPU 內的 RISC-V 核心,特別是驅動程式涉及大量 GPU 底層機密資訊的「下面那一層」丟過去,或經由 GPU 虛擬化掩蓋起來,又會發生什麼事?這件牽扯到另一個少人知悉的潛在需求了:來自官方的開源驅動程式。

弦外之音:GPU 驅動程式開源的衝擊

檯面上看不到或少人著墨的議題,舉足輕重的程度往往遠超乎看熱鬧外行人的想像。

無論超級電腦還是人工智慧(尤其是人命關天的自動駕駛),基於安全性考量,晶片廠商的客戶或多或少都希望檢視所有程式碼,理所當然包含驅動程式,這就是 GPU 驅動程式開源之所以如此重要的主因。但偏偏這又是暗藏大量商業機密的黑盒子,要如何滿足客戶需求又不讓機密外洩,大方釋出「官方開源驅動程式」,就是 nVidia、AMD 甚至即將「GPU 戰線復歸」的英特爾,已經面對很久的機會與挑戰。

技術的發展跟著應用的需求走,這恐怕也將會註定 AMD 靠著「超級電腦 APU」反攻高效能運算市場的企圖能否悲願成就的鎖鑰。點到為止,剩下的就留給各位慢慢思考了。

(首圖來源:AMD)