Hot Chips 2023》神奇的處理器:英特爾 8 核心 528 執行緒的矽光連線處理器研究案

作者 | 發布日期 2023 年 09 月 11 日 7:50 | 分類 IC 設計 , 光電科技 , 技術分析 line share follow us in feedly line share
Hot Chips 2023》神奇的處理器:英特爾 8 核心 528 執行緒的矽光連線處理器研究案


今年 Hot Chips 2023(第 35 屆)英特爾發表一顆看起來非常神奇的實驗性處理器,特性如下。

  • 8 核心,然後用某種 RISC 指令集(也許是 RISC-V)。
  • 總計 528 條執行緒,代表一個核心高達 66 條。
  • 8 核心處理器與四個矽光(Silicon Photonics)元件,藉 2.5D 封裝技術 EMIB 包在一起。
  • 每個處理器透過 32 個光學傳輸界面連結其他處理器,16 個處理器組成一個 OCP(Open Compute Platform)抽屜,再一路堆成計算機架。

如果直接搜尋「Silicon Photonics」,可能會先看到一堆英特爾銷售的光學收發器(Optical Transceiver),以及「結合 20 世紀兩項最重要的發明:矽晶積體電路和半導體雷射」。2016 年開始,英特爾銷售數百萬個 100G 和更高頻寬的光學收發器(800G 也即將登場),用於各種資料通訊,特別是資料中心交換器光學互連,替英特爾創造十幾億美元業績。或也會找到英特爾將交換機晶片直接和光學收發器封裝在一起的應用案例(Co-Packaged Optical Switch)。

▲ 隨著資料中心網路頻寬激增,網路交換機晶片在電路板上的銅線,將電子訊號傳遞到可抽換式光學收發器(如 10 / 40GbE 的 SFP+ 和 QSFP+,以及用於 25 / 100GbE 的 SFP28 / QSFP28)進行光電轉換的「傳統」方法,導致訊號處理難度水漲船高,將光學收發器直接和交換機晶片「送做堆」也自然而生,且可大幅降低製造成本與耗電量,實現更高密度的網路埠數量。

但英特爾對「Silicon Photonics」的期待和野心遠不只此,早在 20 世紀初就試圖挖掘矽晶圓上製造光學傳輸元件的商業價值和應用潛力。矽晶圓的巨大量產能力,會大幅降低光纖通訊設備的價格,更有助半導體元件和光學傳輸元件整合,因只要是金屬導線(銅為主)都會產生電子交互作用問題,電流流通衍生的電阻會導致發熱,導線隔絕層也造成許多技術困難,無論處理器和電腦系統,由內到外,都被聯繫每個功能元件的導線材料重重限制,但用光訊號通訊就不用這麼麻煩。

假若以「光連線」取代「電連線」,不限晶片和系統通訊,甚至連「晶片內」都比照辦理,以上障礙將統統迎刃而解,會劇烈衝擊既有電腦架構設計,尤其平行化系統。更有甚者,過去「運算」和「通訊」是兩個不同產業,但「Silicon Photonics」可能推動兩者整合。

英特爾早在 20 幾年前就投入「Silicon Photonics」研究,2004 年 2 月春季 IDF(Intel Developer Forum)首度公布矽晶圓光學調變器(Optical Modulator),並同步發表於權威科學期刊《自然》(Nature),英特爾之前,其他使用矽晶圓生產的光學調變器,最高速度僅 20MHz,英特爾卻一口氣推上 1GHz。那時光學調變器和其他光學功能元件,大部分以砷化鎵(GaAS)的 III-V 族半導體及氧化鋰鈮(Lithium Niobate)為主要材料,製造成本相當高昂,英特爾就造成半導體製程巨大突破。

2006 年 9 月,英特爾宣布與加州大學聖芭疤拉分校研究員,一同找出可製造低價雷射矽晶片的方法,混合矽和磷化銦(Indium Phosphide)兩種材質結合成單一晶片,讓晶片在電腦中可透過雷射光傳輸資料,速度比銅線快許多,也奠定了今日英特爾矽光學元件的基礎。

2008 年 12 月,發表矽晶圓累崩光電偵測器(APD,Avalanche Photodetector),可應用數十公里長、40Gbps 以上遠距離傳輸,也超越更昂貴的銦(indium)。

2010 年 8 月,英特爾混合矽晶雷射(Hybrid Silicon Laser)達 50Gbps,等於每秒傳送一部高畫質電影。

2016 年 8 月 IDF,英特爾宣布「Silicon Photonics」量產供貨並推出多款 100GbE 光學收發器,象徵矽晶圓光學元件商業化。

談完「Silicon Photonics」,現在知道英特爾這顆實驗性處理器是經光學網路傳輸互連,而如此誇張的「528 執行緒」數量又是怎麼回事?

英特爾是為了 DARPA(Defense Agencies Research Program Agency,美國國防高等研究計畫署)的 HIVE(Hierarchical Identify Verify Exploit)圖像分析處理器做出這東西,目標要比現在技術快千倍。當英特爾分析工作負載時,發現是大規模平行處理,快取記憶體利用率很差,大而無當的非循序 (Out-Of-Order Execution)指令執行管線則根本派不上用場。

接著就好好瞧瞧英特爾的簡報。

▲ 研究案背後關鍵動機是 DARPA HIVE 計畫的超稀疏資料,讓「傳統」處理器微架構發揮不了作用。

▲ 快取記憶體和非循序指令執行管線都沒有好好利用。

▲ 核心:
66 條硬體執行緒
192kB 快取記憶體(指令加資料)
4MB 專屬 SRAM

處理器腳座:
8 核心
32 個光學 I/O 埠(個別單向 32GB/s 頻寬)
32GB DDR5-4400 記憶體

OCP 抽屜:
16 顆處理器
16TB/s 總單向傳輸頻寬
0.5TB 容量 DRAM

▲ 每核心有四個多 16 條執行緒管線和兩個單執行緒管線,66 這數字就是這麼來的。

▲ 連接晶片所有核心的路由器架構,總計 10 埠。

▲ 單一處理器內部有 16 個路由器組成內網,一半是為了提供更多高速 I/O 頻寬。

▲ 處理器之間都是矽光學元件組織的 HyperX 拓樸網路,即使處理器並不在同一個 OCP 抽屜,無須添加交換機和網卡也能互連。

▲ 使用 2.5D 封裝技術 EMIB,包入一顆主要運算晶片和四顆矽光收發器。

▲ 光學傳輸性能,含理論頻寬和延遲。

▲ 總功耗約 75W,59% 為矽光元件使用,運算核心僅佔 21%。

▲ 模擬到測量的工作負載延展性。

▲ 運算晶片的物理規格,製程是台積電 7 奈米,276 億電晶體,316 平方公釐。單一核心 12 億電晶體,9.3 平方公釐。

▲ 晶片封裝和測試用主機板,可清楚看到處理器拉出來的光纖。

▲ 計畫概要,總之英特爾還在實驗,理論上 HyperX 拓樸網路可延伸超過 10 萬個 OCP 抽屜和 100 萬個處理器,一個 16 處理器的 OCP 抽屜僅 1200W 功耗,是非常驚人的成就,難以想像換成銅線會是怎樣。

歷經「20 年磨一劍」發展,英特爾「Silicon Photonics」總算看似開花結果,巨大多處理器系統造成革命性進展,更讓人不得不好奇,講了這麼多年,英特爾何時會在一般商業產品,導入這些驚世駭俗的成果,搞不好有機會一舉扭轉現在劣勢。

(首圖來源:英特爾)

延伸閱讀: