藉 CS-2 晶圓級晶片輔助,Cerebras 宣布人工智慧 NLP 訓練更低廉簡便

作者 | 發布日期 2022 年 06 月 24 日 12:10 | 分類 AI 人工智慧 , IC 設計 , 晶圓 line share follow us in feedly line share
藉 CS-2 晶圓級晶片輔助,Cerebras 宣布人工智慧 NLP 訓練更低廉簡便


以生產出世界上最大加速器晶片 CS-2 Wafer Scale Engine 聞名的公司 Cerebras 日前宣布,已經在利用該晶圓級晶片進行人工智慧訓練,就是已經訓練出在單晶片上全世界最大的自然語言處理(NLP)人工智慧模型,為公司的發展步出重要的一大里程。

根據國外媒體報導,CS-2 Wafer Scale Engine 晶圓級晶片,採用台積電 7 奈米製程技術,由一整塊方形的晶圓刻蝕而成。它的大小數百倍於當前的主流晶片,具有 15KW 的功率,並且整合了 2.6 兆個電晶體,封裝了 850,000 個核心和 40GB 記憶體。透過該晶片所建構的 NLP 模型,內建 20 億個參數。

事實上,NLP 模型的開發是人工智慧中的一個相當重要領域。因為,利用 NLP 模型,可以訓練人工智慧理解文字含義,並進行相應的動作。之前,OpenAI 所發展的 DALL.E 模型就是一個典型的 NLP 模型,這個模型可以將使用者的輸入的文字資訊轉化為圖片輸出。不過,達成這一模型的成功運作並不容易,NLP 模型的開發必須具有極高的算力成本和技術門檻。

實際上,如果只討論數字,OpenAI 所發展的 DALL.E 模型具有 120 億個參數,而 DeepMind 於 2021 年年底推出的 Gopher 模型則具有驚人 2,800 億個參數。因此,Cerebras 開發 NLP 模型內建 20 億個參數量,在產業競爭者的眼中似乎顯得平凡無奇。不過,一旦去除驚人的參數量條件後,Cerebras 所開發的 NLP 模型則有一項巨大的突破值得關注,那就是降低了 NLP 模型的開發困難度。

報導強調,依照傳統流程,開發 NLP 模型需要開發者將巨大的 NLP 模型切分若干個小模型,並將他們的工作量分散到成百上千個的圖形處理單元上。因為這工作需要這麼多的圖形處理單元,這就形成了高昂的成本門檻。另外,將工作量分散的處理,也讓工程師們的工作異常困難。原因是每個神經網路、每個 GPU 的規格、以及將他們連接在一起的網路都是獨一無二的,並且不能跨系統移植。這使得工程師在一開始時就必須要把相關的結構思考清楚,這過程就必須耗費幾個月的時間才能完成。

對此,Cerebras 表示,這是 NLP 模型訓練中最痛苦的準備工作之一,加上只有極少數企業或組織擁有開發 NLP 模型所必要的資源和專業知識,這使得許多希望運用人工智慧的的企業來說,NLP 模型的訓練變得太昂貴、太複雜,而且太耗時間,甚至未來是否成功都還不一定。因此,如果單晶片就能夠支援 20 億個參數,則訓練 NLP 模型之際,就代表著不需要使用大量的 GPU 來分散工作量。這架構不但可以為廠商節省數千個 GPU 的訓練成本和相關的硬體的擴展要求,同時這也使廠商不必經歷切分模型,並將其工作負載分配給數千個 GPU 繁雜準備工作的痛苦。因此,評論一個 NLP 模型的好壞,並非僅靠參數多寡來決定。

Cerebras 進一步強調,相較於 NLP 模型能在晶圓級晶片上運作,Cerebras 更希望藉此建構的模型更加 「聰明」。Cerebras 在利用了權重分流技術之後,使得計算和記憶體的占用量分離,並允許將記憶體擴展到足以存儲 人工智慧工作量中增加的任何數量的參數上。而透過了這項突破,建置模型的時間從幾個月,到當前的幾分鐘就能完成。甚至,在有架構切換的情需求下,只需要按幾個按鍵就可以完成切換,這使得 NLP 模型的開發變得更加簡單。

(首圖來源:Cerebras)