數位發展部發表「台灣主權 AI 訓練語料庫」,廣納高品質、在地化正體中文語料,支援 AI 模型訓練更貼近台灣的語言、文化及生活情境,促進 AI 模型具備更高的本土辨識力與語意理解能力,以符合台灣社會與產業需求。
舉例來說,「土豆」在台灣指的是「花生」,但中國是指「馬鈴薯」。如今國際上的大型語言模型所採用的正體中文語料比例偏低,內容偏向簡體中文,易出現類似「土豆」例子的誤用狀況。因此 AI 模型訓練資料加入正體中文語料,有助於大型語言模型理解台灣的價值、政經文化,這也正是政府積極建立正體中文語料庫的用意。
數發部推動「台灣主權 AI 訓練語料庫」,已有超過 200 個政府機關投入,上架逾 2,000 筆資料集、超過 6 億 token 數,收錄各機關具台灣文化特色的高品質資料集,語意連貫、內容完整,涵蓋語言、文化、教育、生物、地理環境等領域,並設有入口網( taic.moda.gov.tw )提供個人、公司法人申請使用。
這些在地化資料就像 AI 的教材,幫助 AI 模型更了解台灣,學會更自然、更貼近台灣社會的語言表達能力。
數發部指出,先中央機關協作,將過去資料及新增資料納入以文字為主的語料庫。例如文化部上架的公共藝術與文化資產類型資料集,展現台灣豐富、多元的藝文風貌,可作為訓練 AI 模型認識台灣文化內容的重要素材;教育部提供的語言辭典資料涵蓋台語、客語等,有助於強化 AI 模型的用詞精準度與語意理解能力。明年起將與地方政府、民間單位合作擴充語料庫,並與國內外廠商對接、投入訓練與應用。
為了擴大政府資料開放與共享,並促進產業與民間資料運作,數發部推動的《促進資料創新利用發展條例》草案已送至行政院審議,後續將送立法院。數發部更與經濟部智財局推出 《臺灣主權 AI 訓練語料授權條款-第 1 版》,讓語料釋出有明確的授權依據,降低個別著作權商議所要付出的龐大行政成本,減少 AI 訓練資料可能產生的著作權爭議,藉由授權條款先行機制,全力加速主權 AI 的發展與應用。
資料與人才將是 AI 發展的護城河,數發部積極推動正體中文語料庫,未來也會朝多媒體如影像、圖像等資料形式發展,並在合作框架下,引導地方政府與民間單位參與起中。
(首圖左起數發部政務次長侯宜秀、資料創新司司長莊明芬,來源:數位發展部)






