國科會釋出 TAIDE-LX-7B 模型,具繁體中文生成能力、支援五大功能

作者 | 發布日期 2024 年 04 月 15 日 15:44 | 分類 AI 人工智慧 , 科技政策 line share follow us in feedly line share
國科會釋出 TAIDE-LX-7B 模型,具繁體中文生成能力、支援五大功能


國科會主委吳政忠 15 日宣布釋出 TAIDE-LX-7B,是一款結合台灣文化的大型語言模型,幫助產學研快速導入生成式 AI,以提供更多元和多樣化的服務。

國科會自 2023 年 4 月啟動 TAIDE(Trustworthy AI Dialogue Engine,可信賴 AI 對話引擎)計畫,我們終於盼到 70 億參數 TAIDE-LX-7B 釋出。研究人員和開發者可藉由 TAIDE 官網「TAIDE 模型」連結,再進入該頁面提供 Hugging Face 連結下載,就能開始使用並體驗具有台灣特色的 TAIDE-LX-7B。

與其他大型語言模型相比,TAIDE-LX-7B 具有繁體中文的文字生成能力。它以 Meta Llama-2-7B 為基礎,額外擴充繁體中文字元、字詞,使得生成更加流暢、用字精準,同時更具台灣特色。

國科會指出,訓練 TAIDE 所使用的文字資料,以合法取得授權資料進行訓練,TAIDE 本身強調「可信任性」,加強台灣文化、用語、國情等知識,進而產生豐富多樣文字內容。此外,TAIDE 加強了摘要、寫信、寫文章、中翻英、英翻中五大功能,並開發出多輪問答對話能力,可透過已生成的文字內容,接續用戶指令,產出更符合需求的內容。

國科會將 TAIDE-LX-7B 比喻成汽車引擎,後續搭配各式零件、裝上車殼,就能化身成不同用途的車輛運具,提供用戶使用。高雄大學吳俊興教授及團隊結合 TAIDE,開發出開源生成式 AI 應用平台(Kuwa GenAI OS),讓開發者可串接周邊功能,用戶則透過簡易網頁介面與後端模型互動。其他應用案例還有台南大學 TAIDE 台語對話機器人、中興大學神農 TAIDE、中研院行政常見問題回應等。

國際大型語言模型多以簡體中文資料進行訓練,容易發生資訊偏誤或不符台灣文化和價值觀,如今終於有一款專屬台灣的大型語言模型對外釋出,有助於推動我國生成式 AI 發展。

(首圖來源:pixabay

延伸閱讀: