Hot Chips 2023》英特爾 Xeon 執行近似人類大腦推論的 Numenta

作者 | 發布日期 2023 年 10 月 16 日 7:50 | 分類 IC 設計 , 半導體 , 晶片 line share follow us in feedly line share
Hot Chips 2023》英特爾 Xeon 執行近似人類大腦推論的 Numenta


可曾想過人為什麼會有「意識」?理解世界的「智能」又從何而來?這和處理器業界的年度盛事 Hot Chips 又有什麼千絲萬縷的關係?

被譽為世界科幻文學三巨頭之一的羅伯特·海萊恩(Robert Anson Heinlein),1961 年出版的《異鄉異客》(Stranger in a Strange Land),陳述在火星長大的孤兒,用非人類的眼光審視人類世界的故事。作者杜撰了一個字「Numenta」,來自拉丁文的「心靈」(Mentis)之意。

2005 年,知名計算機科學家兼神經生物學家 Jeff Hawkins、Donna Dubinsky 和 Dileep George 創立 Numenta,目標透過開發基於大腦新皮質的原理,創造機器智慧。之前 Jeff Hawkins 是 Palm 和 Handspring 創辦人,可謂掌上型運算領域先驅者,也創建紅杉神經科學研究所(Redwood Neuroscience Institute),身兼美國國家工程學院院士。

▲ Numenta 創辦人之一 Jeff Hawkins 是知名的計算機科學家與神經生物學家,更是 Palm、Handspring、紅杉神經科學研究所(Redwood Neuroscience Institute)和 Numenta 創辦者,曾主導 Palm 和 Treo 等早期掌上型運算平台研發,並撰寫《On Intelligence》(創智慧)和《A Thoudand Brains》(千腦)兩本人工智慧領域的名作。

據人類進化史,大腦皮質分為新皮層和古皮層,厚度約 2~4 公釐,位於腦半球頂層的新皮質,處理資料的手段與人類意識和知覺息息相關。

因此 Jeffrey 和夥伴一起寫了《On Intelligence》(中譯「創智慧」或「人工智慧的未來」),提出「階層式時序記憶」(HTM,Hierarchical Temporal Memory)演算法,為 Numenta 核心技術,藉模擬新皮層機制,以人類認知世界的方式學習世界,可儲存、學習、推論和長序列回憶。Numenta 成立宗旨,不外乎「逆向工程」新皮質,最終製造出以相同理念運作的人工智慧機器。

▲ 不同神經元模型比較:A. 人工神經網路。B. 生物神經元(新皮層錐體神經元)。C. HTM(階層式時序記憶)神經元。可清楚看到 Numenta 企圖變相複製更接近大腦的運作方式,再用於人工智慧。

Jeff Hawkins 2018 年出版《A Thoudand Brains》,後來被微軟創辦人比爾蓋茲(Bill Gates)列入 2021 年底聖誕閱讀清單,探討「千腦理論」(The Thousand Brains Theory)徹底改變我們對大腦和人工智慧前景的理解,介紹千腦理論如何影響機器智慧的未來,並試圖解釋大腦皮質每小部分都獨立學習對象模型,這些模型最後合併,形成整體認知。

換言之,人類智慧來自大腦無數個幾乎一模一樣的皮質柱(Cortical Column)共同作業,就好像大腦由「幾千個同時運行元件」組成。

更精確點,千腦理論可分成四部分:

  • 「多重模型」:皮層每部分都獨立學習對象模型。這象徵有成千上萬皮層區域同時學習和建立相同對象的模型。
  • 「多重表徵」:皮層每部分都獨立學習對象,代表大腦有多個同對象的表徵。
  • 「投影框架」:大腦使用稱為投影框架的方法確定物體的空間位置,意謂我們不僅學習物體本身,還要學習物體與其他物體的相對位置。
  • 「結合模型」:雖然皮層每部分都有獨立模型,但高層次整合或結合,形成完整的認知模型。

▲「千腦理論」是 Numenta 試圖解釋大腦皮層工作原理的神經科學理論,核心觀點在大腦皮層每小部分都獨立學習對象模型,這些模型最終會合併,形成整體認知。

既然 Numenta 開宗明義要「模仿人類大腦」,那像大腦與生俱來的「稀疏性(Sparsity)計算」(可參考筆者前篇中國墨芯文章),與避免神經網路學習新任務或新資料時,可能會完全或部分忘記以前學到的資訊或技能的「災難性遺忘」(Catastrophic Forgetting)造成連續學習(連續學習多任務,而不是從頭開始)於傳統神經網路的瓶頸,自然也是 Numenta 努力的重點。

▲ Jeff Hawkins 兩本著作構成 Numenta 公司的技術思路基礎,闡述「千腦理論」的後者還曾被被微軟創辦人比爾蓋茲列為 2021 年底聖誕閱讀清單。

但你或許會疑惑:難道 Numenta 真要打造「與大腦同樣原理」的晶片?當然不是,且任何晶片都不做。Numenta 的訴求很簡單:普及的泛用伺服器處理器(通指英特爾 Xeon)就可靠 AVX-512 指令集和內建「AI 的下一大步」AMX(Advanced Matrix Extensions)矩陣加速器,跑出優異的推論效能,更不需缺貨缺很大、價格也貴森森的高階運算 GPU。這很可能讓人覺得 Numenta 的「格局」和這麼多年於 Hot Chips 猛衝「人工智慧」的眾多廠商,高下立判。

▲ 英特爾 AMX 發表超過三年,但到今年第一季第四代 Xeon-SP 處理器  Sapphire Rapids 才讓人一親芳澤。就讓我們看看 Numenta 如何發揮 AMX 對人工智慧的潛能。

歷經 20 年深入研究神經網路,不久前 9 月 11 日,Numenta 終於宣佈推出商業化人工智慧產品:Numenta 智慧運算平台(NuPIC,Numenta Platform for Intelligent Computing),為 HTM 演算法的實際商品,對應 C++、Python、Java 及 Clojure(Java 平台 Lisp)等程式語言版。

現在就讓我們好好瞧瞧今年 Hot Chips,Numenta 怎樣使用普遍部署的 CPU 解決人工智慧推理問題,如何活用 AVX-512 和 AMX,一睹足以讓英特爾自豪的成果。

Numenta 的目標:受神經科學啟發,將更多大腦運作方式用於人工智慧。畢竟人腦功率約 20W,卻能超越功耗超出幾個量級的電腦。與為了密集計算(嘗試計算每種排列組合)而生的近代電腦,人腦是為大量稀疏計算(僅計算最相關和最有影響力組合)而設計。

▲ 神經元看起來很複雜,卻讓生物大腦在極度稀疏狀態運作。Numenta 將 HTM 演算法應用到新型 CPU,可將運算變得超稀疏,消除 90% 權重同時,提供相似的精確度。

▲ 使用 GPU 推論的技術限制:現今 GPU 專為超高密度矩陣乘法運算量身訂做,須持續填充資料才能維持高效處理,且缺乏彈性,混合 CPU 和 GPU 的「兩塊記憶體」基礎架構也造成額外麻煩和挑戰。

▲ Numenta 利用 AVX-512 指令集、AMX 和英特爾數學核心函式庫(MKL,Math Kernel Library),達成約 90% 稀疏率。

▲ 英特爾延宕多次的第四代 Xeon-SP 處理器 Sapphire Rapids 首次引進 AMX(Advanced Matrix Extensions),正如其名,旨在高效率矩陣運算,特色在 2D 結構的資料暫存器 Tile 和每個時脈週期可同時進行 1,024 個 BF16 格式資料計算的 TMUL(Tile Matrix Multiply)執行單元,同時支援 FP32、FP16 和 INT8。後繼第六代  Granite Rapids 將新增 AMX-COMPLEX 半精度浮點複數。這次 Numenta 將對世人展示真正威力。

▲ Numenta 同步使用 AVX-512 和 AMX,如 AMX 輸出 FP32 運算結果,用 AVX-512 轉換成 BF16,再回饋給 AMX 下一步計算,充分掩蓋 AMX 載入 Tile 的延遲,盡量保持運作單元滿載,達成最大計算量。

▲ Numenta 充分運用 AVX-512 和 AMX 加持下,56 核心的英特爾第四代 Xeon-SP 處理器,BERT(Bidirectional Encoder Representations from Transformers)模型推論效能達 19 倍、32 核心第四代 Xeon-SP Ice Lake 的 62 倍和 48 核心 AMD 第三代 EPYC Milan 的 123 倍。

▲ 結合 Numenta 的 HTM 演算法和英特爾 AMX,第四代 Xeon-SP 有 Nvidia A100 十倍的推論輸出率。

▲ 相同計算成本,Numenta 有明顯較高精確度。Numenta 目標在透過改變模型計算需求,調整實現準確性成本曲線。

▲ Numenta 不但證明英特爾 AMX 可明顯提升大型語言模型(LLM,Large Language Model)效率,更可怕的是,假若換裝成內建 64GB HBM2e 的 Xeon Max,還可再提高到「三倍」輸出率。

▲ 最後,Numenta 強調「整個 NuPIC 可以只用 CPU 跑」(NuPIC can run entirely on CPUs),這還真是 Numenta 和英特爾的共同勝利。

自從英特爾 2020 年 6 月發表 AMX 後,大概因一再延期與坊間極度陌生的刻板印象,加上拜 OpenAI 之賜的 Nvidia「皮衣教主」熱潮,少人關注這技術的實際潛力,但「20 年磨一劍」的 Numenta,卻讓世人在 Hot Chips 首次見識到真正威力──況且這兩家公司很明顯合作密切,否則近年「核戰」一直處於上風的 AMD 就不會當沙包猛打了──即使拖出沒有 AVX-512 的 AMD 第三代 EPYC Milan 有點勝之不武。

▲ 看來 Xeon Max 的 64GB HBM2e 的確有不錯效果,尤其對很吃頻寬的大型語言模型(LLM,Large Language Model)特別有效。

人工智慧使用者用英特爾 Xeon 處理器執行近似人類大腦推論的 Numenta,最大貢獻在「連一般伺服器也可跑很快」,不必癡癡等待缺貨的 Nvidia、尚未完備的 AMD MI300 與剛起步的英特爾 Gaudi 2 加速器。但話說回來,AMD 會不會全面性相容 AVX-512 後,也將實裝 AMX 納入之後產品計畫,頗值得觀察。

(首圖來源:Numenta

延伸閱讀: