Kneron 新一代終端人工智慧處理器 NPU IP-KDP Series 運算效能大幅提升

作者 | 發布日期 2018 年 09 月 14 日 17:13 | 分類 AI 人工智慧 , 市場動態 , 晶片 follow us in feedly

終端人工智慧解決方案領導廠商耐能智慧(Kneron)14 日參與上海舉行的 Arm 人工智慧開發者全球峰會,以「可重組算法在 AI 晶片中的應用」為主題發表演說,會中同時發表 Kneron 新一代終端人工智慧處理器系列 NPU IP-KDP Series。



Kneron 第二代 NPU IP 包括三大產品,分別為超低功耗版 KDP 320、標準版 KDP 520、高效能版 KDP 720。全系列產品的功耗小於 0.5 瓦(W),採用新架構設計讓運算更具彈性,整體運算效能相較上一代產品大幅提升達 3 倍,運算能力(peak throughput)最高可達 5.8TOPS(每秒兆次運算,註)。

Kneron 創辦人暨執行長劉峻誠表示:「Kneron 推出為終端裝置所設計的人工智慧處理器 NPU IP 後,超低功耗的優勢受到市場高度關注。Kneron 新一代 NPU 產品在諸多方面都有顯著的突破,基於第一代產品的優勢,我們改善資料運算流程、提升整體運算效能與儲存資源使用率,同時針對不同神經網路模型進行優化,讓 NPU 可以更廣泛地應用在各種終端裝置,並滿足更複雜的運算需求。」

Kneron NPU IP 可應用在智慧手機、智慧家居、智慧安防、以及各種物聯網設備上,讓終端裝置在離線環境下就能運行各種神經網路。Kneron 第二代 NPU IP 採用新的交錯式運算架構(Interleaving computation architecture)設計,縮短運算流程和提升效率;深度壓縮(Deep compression)技術讓壓縮功能從模型層級深入至資料和參數層級,使壓縮率再提升。動態儲存資源配置功能提升儲存資源利用率,卻不影響運算效能。此外,支援更廣泛的卷積神經網路(Convolutional Neural Networks,CNN)模型,並針對各種 CNN 模型分別進行優化,在不同神經網路模型下,可提升 1.5~3 倍不等效能。

第二代 NPU IP-KDP Series 重點技術說明:

  • 交錯式運算架構:交錯式架構讓神經網路架構中主要的卷積(convolution)與池化(pooling)運算可平行進行,以提升整體運算效率。在新的卷積層中,還可同時支援 8bits 與 16bits 定點運算(fixed point),讓運算更有彈性。
  • 深度壓縮技術:不僅能執行模型壓縮,還能對運行中的資料和參數(coefficient)進行壓縮,減少記憶體使用。模型大小可壓縮至五十分之一以下,準確度的影響率小於 1%。
  • 動態儲存資源配置:讓共享記憶體(Shared memory)和運作記憶體(Operating memory)之間可以進行更有效的資源配置,提升儲存資源利用率的同時卻不影響運算效能。
  • CNN 模型支援優化:支援更廣泛的 CNN 模型,包括 Vgg16、Resnet、GoogleNet、YOLO、Tiny YOLO、Lenet、MobileNet、Densenet 等,且針對不同 CNN 模型分別優化,在不同神經網路模型下,相較上一代產品提升 1.5~3 倍效能。
註:運算效能會因奈米製程不同而異。5.8TOPS 為 KDP720 在 28 奈米製程、600MHz、8bit fixed points 下的效能表現,預測運行功耗在 300~500mW(估計每瓦效能為 13.17TOPS/W)。

(首圖來源:Kneron