數發部:台灣 AI 語料庫,三個月內釋出首波資料

作者 | 發布日期 2025 年 06 月 18 日 15:15 | 分類 AI 人工智慧 , 科技政策 line share Linkedin share follow us in feedly line share
Loading...
數發部:台灣 AI 語料庫,三個月內釋出首波資料

台灣打造主權 AI 訓練語料庫,數發部今天表示,6 月開始與各部會盤點各項語言資料,評估是否納入 AI 訓練語料庫,目前確定客語、原住民語將會放入,同時數發部研議語料庫行動計畫,盼政府機關與民間響應資料共享與活化應用,預計 2、3 個月內展開第一階段語言資料釋出,屆時包括政府法人或產業,皆可申請使用。

立法院交通委員會18日邀數發部長黃彥男就「推動AI之產業發展政策」進行專題報告,並備質詢。

民進黨立委徐富癸關注,數發部正推動台灣主權AI語料庫,但現在語言資料可能偏重政府文書資料,擔心出現語料偏誤,未來資料庫是否有計畫加入原住民族語言與客語資料等。

黃彥男表示,打造主權AI關鍵在於資料,主權AI語料庫也是未來AI基本法中重要資料治理面向。

數發部資料創新司司長莊明芬指出,語言資料庫將包括文化、歷史、地理等豐富語言資料,6月會找各部會盤點重要語料庫,近期內部也在研擬語料庫行動計畫,後續如果搭配數發部提出的AI語料授權條款,就可以對外釋出。客語、原住民語言的資料,也會納入語料庫。

至於時程規劃,莊明芬表示,目前正在做基本訓練規劃,也同步建置系統中,首要工作是先充實語言資料,預計兩三個月會先釋出第一階段語料。

(作者:蘇思云;首圖來源:科技新報)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》