數發部擬推新法，打造台灣主權 AI 訓練語料資料庫

台版 ChatGPT、國科會可信任 AI 對話引擎 TAIDE 礙於資料量太少，早就停止更新。為促進開放資料運用，數發部官員表示，正研擬促進資料創新利用發展條例草案，並規劃打造台灣主權 AI 訓練語料資料庫，希望滿足 TAIDE 訓練需求。

中國DeepSeek AI聊天機器人儘管備受爭議，但可預料在甫登場的巴黎AI高峰會成為話題，反觀台版ChatGPT、國科會可信任AI對話引擎（Trustworthy AI Dialogue Engine，TAIDE），由於資料量太少，且受限著作權法等，難擴大使用，2024年5月就停止更新。

為促進開放資料運用，數發部資料創新司司長莊明芬表示，正研擬促進資料創新利用發展條例草案，今年首季將跟各部會與專家學者溝通，後續再做草案預告，今年也規劃打造台灣主權AI訓練語料資料庫，希望滿足TAIDE訓練需求。她說：「今年希望讓資料流通，建置平台讓各界使用，第一步希望政府先行；也就是說政府有大量多元化資料及塊狀語料，都能先釋出，第二步再公私協作，邀請民間共襄盛舉，看誰有資料能貢獻出來。」

莊明芬說「資料創新利用發展條例」草案重點有五項，一是律定資料基礎工程，配合AI發展，提供高品質、可信賴的資料供民間運用；第二，擴大資料開放運用，讓高應用價值跟品質管理落實各政府機關；第三是提出資料創新措施，降低企業進入資料應用門檻，評估部分共享資料減免收費；第四是獎勵資料創新，讓資料創新成果回饋民眾；第五是讓產業間資料共享及活絡。

數發部也規劃今年打造台灣主權AI訓練語料資料庫。莊明芬表示，過去以開放資料為核心，約5萬多筆資料集，盤點有千餘筆聚焦文化部國家記憶、客委會客語資料、原民會原民資料等，希望釋出讓各界運用；去年底也邀請語料建置機關討論，希望最佳化語料申請、收費與授權方式，以滿足TAIDE語料訓練需求，盼今年建置平台，讓各界可運用語料。

至於涉及個資法，莊明芬說將與個資會討論，對個資去辨識化流程跟步驟做好律定，以利未來資料運用。

（本文由中央廣播電台授權轉載；首圖來源：shutterstock）