從 2017 年 Hot Chips 29 一窺晶片業界現況與趨勢

作者 | 發布日期 2017 年 12 月 25 日 7:45 | 分類 AI 人工智慧 , GPU , 手機 follow us in feedly

長期關注半導體產業及處理器技術的最新發展,不可能不知道以下 4 場歷史悠久、與 IEEE(電子電機工程學會)息息相關的 4 場研討會。



  • Hot Chips:介紹最新型高效能晶片,目前第 29 屆,廠商彼此較勁、技術行銷意味濃厚的簡報大賽活動,時間選在炎炎夏日,的確頗符合「Hot Chips」的抬頭。
  • Cool Chips:介紹最新型「低功耗,高效能」晶片(所以連 IBM 和 Fujitsu「自己覺得沒那麼耗電」的 Power9 與 SPARC64 XII 都登場了),目前第 20 屆,商業味道比較沒那麼重,主要在日本橫濱舉辦,眾多日本廠商和學術機構一同共襄盛舉,包含明年 4 月的第 21 屆。
  • ISSCC(國際固態電路學會):從 1953 年至今,發表先進固態電路與系統單晶片的全球論壇,提供工程師獨特的機會,在先進 IC 設計工作的領域進行交流,論文清單也可經常見到台灣企業與學校的身影。
  • IEDM(國際電子元件會議):始自 1955 年,發表半導體、電子元件技術、設計、製造、物理與模型等領域中的技術突破,動輒勞駕總統行政院長褒揚的台灣半導體相關人士,多半與在 IEDM 發表重大研究成果有關。近年越來越多關於新世代非揮發性儲存記憶體的相關論文,都在此發表。

其中相對「平易近人」的 Hot Chips,堪稱是處理器業界現況與趨勢的風向球。

Hot Chips 29 的趨勢:人工智慧滿天下

  1. 相較於 2016 年的 Hot Chips 28,「人工智慧概念股」完全爆炸性的成長,而各類型「人工智慧晶片」,從 GPU、超級多核 CPU、FPGA、專用晶片,甚至吸引眾人目光的 Google TPU,均傾巢而出。
  2. 拜自駕車風潮之所賜,自動駕駛相關技術也是變得異常熱門。
  3. 以可程式化為首的 FPGA 也要開始「包山包海」,要能接無線網路,也要提供高頻寬記憶體。但更重要的是,微軟、Amazon 和百度高談他們是怎樣利用 FPGA 加速運算。
  4. 傳統伺服器處理器的玩家還是那幾個,但這次 Qualcomm 殺進來了。
  5. P4 編程語言的實用化,象徵著軟體定義網路(SDN)應用的深化。
  6. 做為網路設備心臟的高階網路處理器,規格還是一如往常的暴力。

Hot Chips 也按照慣例,在 12 月中對未參加者,開放下載完整的議程簡報和線上視訊,所以特此簡述今年 Hot Chips 的重點,如讀者想進一步了解細節,可自行閱讀網站上提供的豐富文件,外行看熱鬧,內行看門道,以下依序簡介重點。

Keynote(主題演講):還是聚焦在人工智慧。

Tutorial(特別議程):SDN(軟體定義網路)應用的「P4」封包編程語言的實用化,資料中心網路管理或 ISP 從業人士相信特別有感。

 

Background on Software Defined Networking (Netronome)

重點:SDN 也需要資料階層的封包處理編程語言。

 

P4 Language and Applications(Barefoot Networks、Xilinx)

重點:獨立於通訊協定之外的交換器架構。

 

Overview of the P4 tools(Cisco)

重點:Cisco 教你怎麼撰寫 P4 程式。

 

P4 Hardware Implementations(硬體實做)

  • Tofino Chip Architecture(Barefoot Networks)
  • 重點:對應 P4 的交換器晶片。

  • The p4c-sdnet Compiler(Xilinx)
  • 重點:對應 P4 的 FPGA 編譯器。

  • Network Flow Processor and Agilio SmartNICs(Netronome)
  • 可處理 P4 的 120 核心網路處理器晶片。

 

Future Directions: Research Problems, Getting Involved, and Resources(Cisco)

重點:P4 生態圈誓師大會。

Tutorial(特別議程):nVidia 大談自動駕駛順便推銷晶片。

 

An Overview of NVIDIAs Autonomous Vehicles Platform(NVIDIA)

重點:94% 的交通事故都是三寶等人為因素,所以大家就不要自己開車吧。

 

Deep Neural Networks Autonomous Vehicle Landscape(NVIDIA)

重點:從後端深度學習一路到前端車用系統,請大家愛用 nVidia 的晶片。

 

GPU and Gaming:nVidia「Volta」大戰 AMD「Vega10」,然後 AMD 再度昭告天下通吃遊戲機市場。

AMD’s Radeon Next Generation GPU(AMD)

重點:AMD Vega 很強很厲害,不過只和自己前代比。

 

NVIDIA’s Volta GPU: Programmability and Performance for GPU Computing(nVidia)

重點:nVidia 終於在比較正式的場合,公開了大量技術細節,包含 SM 內的運算單元結構。

 

The Xbox One X Scorpio Engine(Microsoft)

重點:新世代 Xbox One 各方面的性能都是前代的好幾倍,但跟系出同源的 PS4 越來越像。

IOT / Embedded:計算機結構大師 Patterson 創造的 RISC-V 再度登上舞台,只是可能沒太多人記得。

 

SiFive Freedom SoCs: Industry’s First Open-Source RISC-V Chips(SiFive)

重點:RISC 指令集的上古神獸,然後很多東西都不會收你錢。

 

Self-timed ARM M3 Microcontroller for Energy Harvested Applications(ETA Compute)

重點:要到處亂灑並不倚賴電池為動力的微控制器,時脈一定是高不起來的。

Processors:大家就拚命加速深度學習和資料處理吧。

 

XPU: A programmable FPGA Accelerator for diverse workloads(百度)

重點:連百度都在設法用 FPGA 加速其實際的「業務」,「反觀」台灣。

 

Knights Mil: Intel Xeon Phi Processor for Machine Learning(Intel)

重點:Intel 新款 Xeon Phi 針對深度學習,最佳化低精度運算的效能。

 

Celerity: An Open Source RISC-V Tiered Accelerator Fabric(密西根大學)

重點:用大量的通用 RISC-V 核心,堆疊出適合不同運算的多核心架構。

 

Graph Streaming Processor(GSP)A Next-Generation Computing Architecture(ThinCI)

重點:追求 Task Graph 工作平行化的運算架構。

Automotive:繼續談自動駕駛。

 

R-Car Gen3: Computing Platform for Autonomous Driving Era(Renesas)

重點:瑞薩的新型自動駕駛運算平台,與未來邁向 Level 4 的簡略時程。

 

Localization for Next Generation Autonomous Vehicles(Swift Navigation)

重點:自駕車的導航系統,也需要配合不同的應用環境「在地化」。

FPGA:這年頭的可程式化邏輯陣列要能包山包海。

 

Xilinx RFSoC: Monolithic Integration of RF Data Converters with All Programmable SoC in 16nm FinFET for Digital-RF Communications(Xilinx)

重點:FPGA 要做無線應用,也需要整合 RF 資料轉換器。

 

Stratix 10: Intel’s 14nm Heterogeneous FPGA System-in-Package(SiP)Platform(Altera / Intel)

重點:Intel 繼續宣傳「高級膠水技術」EMIB 在 FGPA 的優勢。

 

Xilinx 16nm Datacenter Device Family with In-Package HBM and CCIX Interconnect(Xilinx)

重點:這年頭不只 GPU,連 FPGA 都需要整合 HBM 因應高頻寬需求,世道真的不同了。

 

FPGA Accelerated Computing Using AWS F1 Instances(Amazon)

重點:不只百度,連 Amazon 也引進 FGPA 加速運算了。

Neural Net:類神經網路與深度學習真的很熱鬧。

 

A Dataflow Processing Chip for Training Deep Neural Networks(Wave Computing)

重點:針對深度學習而量身訂做的資料流處理晶片,順便「暗示」當下 CPU 加上 GPU 的問題。

 

Accelerating Persistent Neural Networks at Datacenter Scale(Microsoft)

重點:微軟終於告訴大家,他們是怎如何在資料中心使用 FPGA 加速深度學習了。

 

DNN ENGINE: A 16nm Sub-uJ Deep Neural Network Inference Accelerator for the Embedded Masses(哈佛大學/ARM)

重點:哈佛大學研究的深度學習最佳化晶片微架構。

 

DNPU: An Energy-Efficient Deep Neural Network Processor with On-Chip Stereo Matching(南韓科學技術院)

重點:連南韓的研究機構也在自行打造深度學習晶片了。

 

Evaluation of the Tensor Processing Unit: A Deep Neural Network Accelerator for the Datacenter(Google)

重點:各位,歡呼吧,Google 公布 TPU 架構細節啦。

Architecture:Cisco 的恐龍化網路處理器與 ARM 繼續炒作動態處理器分配技術。

 

A 400Gbps Multi-Core Network Processor(Cisco)

重點:Cisco 新一代 672 核心網路處理器。

 

ARM DynamIQ: Intelligent Solutions using Cluster Based Multi-Processing(ARM)

重點:ARM 介紹 DynamIQ 的細節。

Server:IBM、Intel、AMD 大亂鬥,加上 Qualcomm 插一腳。

 

The Next Generation IBM Z Systems Processor(IBM)

重點:源自 S/360 的 IBM 大型主機,到現在還活得好好的,還是藍色巨人真正的金雞母,地球上「伺服器」的萬王之王。

 

The Next Generation AMD Enterprise Server Product Architecture(AMD)

重點:EPYC 的多晶片封裝,製造成本不到單晶片設計的六成。

 

The New Intel Xeon Processor Scalable Family(Formerly Skylake-SP)(Intel)

重點:感覺是有點為了宣傳而宣傳,勉為其難的介紹產品階層很像直銷組織的 Skylake-SP。

 

Qualcomm Centriq 2400 Processor(Qualcomm)

重點:Qualcomm 終於投入 ARM 伺服器市場,而且還是「純 64 位元」微架構。

會場的海報:連做硬碟的廠商都要告訴大家他們想在未來的 SSD 做啥好事,不過就請屆時下載慢慢看吧。

 

Using Texture Compression Hardware for Neural Network Inference(喬治亞理工/ARM)

重點:類神經網路的推論工作也需要材質壓縮。

 

SoundTracing: Real-time Sound Propagation Hardware Accelerator(世宗大學)

重點:為了 AR 應用,透過硬體加速的聲音追蹤技術。

 

A Memory-Efficient Persistent Key-value Store on eNVM SSDs(Western Digital)

重點:減少未來新型 SSD 的 KVS(Key Value Store)控制器的 CPU 與記憶體消耗。

 

Accelerating Big Data Workloads with FPGAs(Bigstream)

重點:將 FPGA 應用於大數據處理。

 

Loom: A Precision Exploiting Neural Network Accelerator(多倫多大學)

重點:「探尋權重與激活值精度以加速卷積神經網路」的人工智慧晶片。

 

EPIPHANY-V: A TFLOPS scale 16nm 1024-core 64-bit RISC Array Processor(Adapteva)

重點:美國國防部高等研究計畫署(DARPA)加持的 1024 核心 RISC 處理器,有點嚇人。

 

Fully-Integrated Surround Vision and Mirror Replacement SoC for ADAS/Automated Driving(TI)

重點:TI 針對自駕車周圍視野與後照鏡的方案。

 

GRVI Phalanx On Xilinx Virtex UltraScale+: A 1680-core, 26 MB RISC-V FPGA Parallel Processor Overlay(Gray Research LLC)

重點:1,680 核心看起來好像很恐怖。

(首圖來源:影片截圖)