參數 1,000 億個!中國 TeleAI 完成首個全國產化大模型訓練

作者 | 發布日期 2024 年 10 月 02 日 14:56 | 分類 AI 人工智慧 , 中國觀察 line share Linkedin share follow us in feedly line share
參數 1,000 億個!中國 TeleAI 完成首個全國產化大模型訓練


中國電信人工智能研究院(TeleAI)宣稱,成功完成國內首個基於全國產化萬卡集群訓練的 1,000 億個參數大模型(萬卡萬參),並正式對外開源首個基於全國產化萬卡集群和中國國產深度學習框架訓練的千億參數大模型——星辰語義大模型 TeleChat2-115B。

由中國電信集團 CTO、首席科學家、中國電信人工智慧研究院(TeleAI)院長李學龍教授帶領,顯示中國國產大模型訓練真正實現全國產化替代,並未因為西方出口限制而出現干擾。

該專案 GitHub 網頁,TeleChat2-115B 模型使用 10 兆個高品質的中英文語料來訓練,並提到與「Ascend Atlas 800T A2 訓練伺服器 」的相容性。

據中媒報導,在今年5月的 OpenCampass 測試榜單中,TeleChat 系列模型的邏輯推理能力名列開源大模型榜單第一。作為新一代版本,TeleChat2-115B 在 9 月最新評測 Open Access 模型綜合榜單中,以 86.9 分的成績排名第一。其通用能力較 TeleChat 系列模型提升近 30%,特別是在工具使用、邏輯推理、數學計算、代碼生成和長文寫作等方面能力均有大幅提升。

不過,TeleChat2 雖擁有 1,000 億個參數,但落後最近的 Llama 模型(參數高達 4,000 億個)或 Open AI 的 o1(可能高達 2,000 億個)。雖然單看參數不能決定模型能力,但參數偏低可能意味訓練 TeleChat2 所需的運算能力比其他專案低。

中國電信先前宣布將使用華為 Ascend AI 晶片用於 LLM 培訓,目前華為一直努力開發晶片,華為目前推出 Ascend 910B,最近傳出最新的 Ascend 910C 樣品已經提供給客戶測試。

由於中美貿易戰,中國開始敦促企業遠離 NVIDIA AI 晶片、改買國貨,另有傳聞稱美國計畫將制裁擴大至 H20,如果禁令成真,華為將填補 NVIDIA 的空缺。如果中國電信人工智能研究院確實只使用華為晶片進行培訓,那這項消息對華為、中國政府來說都是一大成功,繼續在 AI 晶片上獲得進展。

(首圖來源:pixabay

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》