繁中專家模型 Project TAME 開源釋出,懂台灣文化、在地化對答

作者 | 發布日期 2024 年 07 月 01 日 12:41 | 分類 AI 人工智慧 line share follow us in feedly line share
繁中專家模型 Project TAME 開源釋出,懂台灣文化、在地化對答


世界各國都希望在國內建立和運行 AI 基礎設施,NVIDIA 執行長黃仁勳高聲疾呼「主權 AI 」重要性。台灣使用繁體中文,長久以來養成我們自己的用語和文化,如今產學合作下,新開發出繁體中文專家模型 Project TAME,專為台灣使用者設計。

Project TAME(TAiwanese Mixture of Experts)由台大資工系副教授陳縕儂帶領實驗室同仁與企業夥伴開發團隊合作,在 NVIDIA 開發者計畫技術支持下,多家垂直產業的企業專家貢獻專業領域資料,預訓練近 5,000 億字符(token),開發出一款繁體中文大型語言模型,1 日正式對外發表。

Project TAME 了解台灣用語,舉例「東西買得很盤」若餵給 ChatGPT、Gemini 恐怕無法理解,但新模型看得懂,在律果科技協助下可解釋艱澀法律名詞。更重要的是,Project TAME 適合不同產業加以應用。

Project TAME 核心開發者、台大資工系博士班候選人林彥廷分享技術細節,這款模型以 Meta Llama 3 8B、70B 模型做基礎,訓練架構採用 NVIDIA NeMo / NeMo Megatron 進行高效率運算,推論架構則採 NVIDIA TensorRT-LLM,至於訓練硬體是在使用 NVIDIA DGX H100 的 Taipei-1 超級電腦進行。

預訓練過程如同讓 Project TAME 看大量的書,林彥廷分享團隊利用生成式 AI 進一步產出教科書等級、各種學科的知識資料,這種資料量相當於整體訓練資料的三分之一。不只如此,聚集各領域專家以收集合適本土資料進行訓練。

Project TAME 將採開源形式,讓產業、讓各家企業有一個 Hub 中心可以進行合作。陳縕儂指出,不同資料間可能有共同交集可以使用,這對語言模型發展是更好的,也能讓不同產業專家貢獻自己領域的資料。

包括長春集團、和碩、欣興電子、長庚醫院、科技報橘、律果科技分別代表石化工業、電子製造、醫療服務、內容服務、法律等產業,成為首批投入 Project TAME 的業界專家角色。

談到為何需要台灣在地化模型?林彥廷指出三點:一是這款模型針對繁體中文最佳化;二是不讓文化、觀點及意識形態集中在美國科技公司所開發的主流模型產品上,應把台灣文化放入自己的模型;三則是進一步加強在地文化,精準推薦台灣事物及細節。

目前 Project TAME 開放企業、開發者可從 GitHub 免費下載使用,還提供模型聊天頁面;亞太智能機器(APMIC)也率先整合 Project TAME,提出聊天機器人測試頁面供外界體驗。

(首圖為 Project TAME 核心開發者林彥廷,首圖來源:科技新報)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》