IBM 打造類比 AI 處理器,實現超低功耗的神經網路及語音識別應用

作者 | 發布日期 2023 年 08 月 29 日 7:50 | 分類 AI 人工智慧 , 晶片 , 處理器 line share follow us in feedly line share
IBM 打造類比 AI 處理器,實現超低功耗的神經網路及語音識別應用


面對大型語言模型極度耗能的問題,將記憶體和處理單元加以混合會是可行的解決方案之一,IBM 和英特爾都製造出能為單個神經元提供執行功能所需之所有記憶體的晶片。另一種方法則是在記憶體中執行操作,這種方法已在相變化記憶體(phase-change memory)中得到證明。

如今 IBM 又製造出一款更接近功能性 AI 處理器的相變晶片,並於於 23 日發表在《自然》期刊上的論文中,展示了該硬體能夠以合理的準確率以及更低的能耗執行語音辨識。

證明可行!相變化記憶體可以模擬神經網路節點強度及行為

相變化記憶體的發展已有一段時日,它提供媲美快閃記憶體的持久性,同時展現直追現有揮發性 RAM 記憶體的性能表現。其工作原理是加熱一小塊材料,然後控制它冷卻的速度。如果慢慢冷卻,該材料會形成有序的晶體結構,導電性能極佳。但若迅速冷卻,它會形成一團無序的混亂結構,具有更高的電阻。這兩種狀態之間的差異可以儲存一個位元,該位元會保持儲存,直到施加足夠電壓使材料再次熔化後為止。

這種行為被證明非常適合神經網路。在神經網路中,每個節點接收一個輸入,並根據其狀態決定將該信號的多少轉發給其他後續節點,這也被視為網路中單個神經元之間的連接強度。拜相位變化記憶體特性之賜,這種強度也可由類比模式下工作的單個記憶體位元來表示。

當儲存數位位元時,相變化記憶體開及關狀態之間的差異被最大化以限制錯誤。我們大可將位元電阻值設置為其開和關狀態之間任何位置的各種數值,進而允許模擬行為。這種平滑的電位梯度值可以用來表示節點之間的連接強度,換言之,只需將電流通過某相變化記憶體位元,便能獲得與神經網路節點行為相一致的效果,IBM 已經證明了這是可行的。

成功展示在 5 個晶片上共 1.4 億個相變位元的超低功耗運算作業

IBM 新發表的新晶片更接近於功能性處理器,它可在處理大型語言模型所需規模上做到上述的行為效果。這款新晶片的核心組件是所謂的「瓦片」(tile),它是一個由各個相變位元組成的交錯式陣列,寬 512 個單位,深 2048 個單位。每個晶片包含 34 個瓦片,並約有 3,500 萬個相變位元。

該晶片還具備使這些位元得以高速通訊所需的一切,甚至可以在不同的瓦片間進行通訊,而無需任何類比到數位的轉換作業。其並且內建了連同一些靜態 RAM 的傳統處理單元,有助於控制上述種種通訊流,並處理該晶片中類比部分和數位部分之間的轉換。

再者,該系統十分彈性地允許任何連接強度由可變動的位元數來維持。晶片之間也能通信,這使得更大的問題得以分割並分布在多個晶片中進行處理。IBM 展示的最大運算作業涉及分布在 5 個晶片上共 1.4 億個相變位元。目前研究人員從現有的 AI 系統開始,搞定相變位元狀態的設置以進行匹配。一旦設置好,就可以重複運行分析,而且晶片的相變部分也不會有額外的耗能。

語音辨識效能媲美傳統處理器,功耗表現更勝數倍

IBM 研究人員使用這種硬體在兩個語音辨識任務上進行展示。首先,較簡單的任務是要識別出語音中一小部分的關鍵字,這有助於處理自動化客服系統上可能遇到的互動。第二個任務是通用語音辨識。在這兩種情況下,該硬體都能夠達到和傳統處理器上運行人工智慧系統的等效性能表現。結果該晶片在其最大峰值性能下,平均每瓦特功耗能執行 12.4 兆次操作,這比傳統處理器執行相同操作所需的功耗低了很多倍。

需要注意的是,這不是一個通用型 AI 處理器,它只適用於特定類型的神經網路,而且並不是每個問題都適合這種神經網路。它所承諾的節能效益也是基於網路保持靜態的狀況下。任何需要重新配置節點間連接的問題,都意味著要重新設置相變位元的狀態,這反而會造成更多的能耗。

(首圖來源:IBM