繁體中文語料為基礎,台版 AI 對話引擎初步已具 4 大實用功能

作者 | 發布日期 2023 年 06 月 14 日 16:11 | 分類 AI 人工智慧 , 科技政策 line share follow us in feedly line share
繁體中文語料為基礎,台版 AI 對話引擎初步已具 4 大實用功能


國科會期望運用「可信任」的資料基礎下,結合台灣最頂尖的團隊,共同打造「可信賴 AI 對話引擎」(Trustworthy AI Dialog Engine,TAIDE)。國科會 14 日說明 TAIDE 計畫架構和方向,並展示第一階段開發 7B 模型的實際應用。

TAIDE 計畫的學界顧問、陽明交通大學教授李育杰指出,TAIDE 是以台灣文化為基底,融入在地特有的語言、價值觀、風俗習慣甚至法律等元素,使其能理解和回應台灣使用者的需求。

7B 模型是 TAIDE 計畫第一個產出的「中模型」,以能夠學術授權的 LLaMA 原型為基礎進行訓練調教,參數量為 70 億。今日透過影片展示包括自動摘要、翻譯文字、寫信、寫文章 4 個面向,可看出 TAIDE 具備基本的生成式 AI 能力,尤其對於繁體中文的處理回答更為穩定準確。目前已完成封測平台,並提供相關人員持續測試。

TAIDE 計畫共有 4 個階段,除了第一階段達成自動摘要、翻譯文字、寫信、寫文章以外,下一階段可展示特定任務處理,並利用中模型與合作夥伴共同開發功能,並在年底展示 13 億參數量的「大模型」和具備阻絕產生不適當回應的能力,最終將釋出大模型供合作夥伴使用。

為了打造 TAIDE,國科會找來台灣相關領域最頂尖的教授團隊,負責指導核心模型和對話學習技術開發,加上國科會轄下的法人機構,如國研院國網中心負責建置新一代超級電腦提升算力,並提供應用服務平台,科政中心則負責收集處理訓練資料。此外,數位發展部負責驗測環境架構,並針對 TAIDE 計畫產出的模型進行評測,以提供可信任的證據基礎。

▲ 吳政忠強調開發 TAIDE 需要公私協力,大家一起打國際盃。

「台灣不能沒有自己的生成式 AI」,國科會主委吳政忠強調,尤其繁體中文的資料來源是台灣的優勢,而 TAIDE 對政府部門和企業的資料隱私更具重要性,以發展專屬的內部應用系統或加值服務。

吳政忠受訪時透露,目前 TAIDE 計畫經費投入約台幣 2~3 億元,他形容這比開發 ChatGPT 相對小很多,要為台灣在地需求先打基礎,未來期待加上企業的資源逐步擴大。李育杰則表示隨著計畫進展,下半年國研院國網中心增設設備,包括採購 Nvidia H100 GPU 等陸續到位,預計 10 月後算力將能大幅提升,至於 TAIDE 使用計價的確切辦法,目前還沒有任何規劃。

(圖片來源:科技新報)

延伸閱讀: