
由民間發起、針對繁體中文需求改善的「FreeSEED 大型語言模型計畫」,今天宣布取得多家台灣媒體與內容出版商的資料授權,有助 FreeSEED 的繁體中文語言支援,並開啟與繁體中文內容出版商合作的開端。
FreeSEED大模型製作委員會表示,目前FreeSEED專案已獲多家知名新聞媒體與內容出版商的資料授權,包括中央社、關鍵評論網媒體集團、鏡週刊、READr、三立新聞網、品學堂、臺灣吧和BabyHome寶貝家庭親子網等。在地內容的資料授權,將使模型的訓練資料更豐富,為專案發展奠定更紮實的基礎。
委員會強調,FreeSEED專案準備完善資料授權契約,並計劃將訓練出來的模型權重以AGPL開源授權的方式釋出,讓全球開發者能夠自由取用,該資料授權契約也將會用開源方式授權。
專案負責人薛良斌表示,感謝已加入的資料授權合作夥伴,這些夥伴的支持將幫助打造實用而準確的繁體中文模型,誠摯邀請更多媒體、內容提供者與企業加入行列,貢獻資料與力量,共同推動資料的開放與共享,讓更多創新與價值在台灣與全球流通。
FreeSEED專案根據開源大語言模型進行再訓練與改善,目標打造一款專為台灣設計且符合西方主流價值觀的開源大型語言模型,提升繁體中文和英文的語言表現,並將開放原始碼供全球社群參與改進、自由修改與應用。
FreeSEED大模型製作委員會由薛良斌擔任委員長,並委託財團法人開放文化基金會(OCF)代為持有相關的智慧財產。
薛良斌日前表示,FreeSEED以開源模型為基礎,透過模型再訓練,可打造一款滿足台灣需求,並具備推理能力的大型語言模型,進而推動多元與開放價值的傳播,這不僅是技術創新,更是文化與價值的工程。
(作者:江明晏;首圖來源:pixabay)