中央研究院詞庫小組(CKIP)最新釋出可以商用的繁中大型語言模型(large language model)CKIP-Llama-2-7b,「孵‧大學」校長謝昆霖直言「中研院 AI 大翻車!」,在仔細端詳內容後他立刻跟夥伴說「一定會出問題」,模型今日中午下架。
謝昆霖解釋,這款語言模型的多任務微調訓練,是使用「COIG-PC 資料集」和「dolly-15k 資料集」這兩款簡轉繁資料集。前者是北京星塵數據 stardust.ai 提供網路資料集,以中國 AI 相關研究單位為首,超過二十所全球知名大學和機構共同編制。
根據 COIG-PC 資料集網站,重點機構包括北京人工智慧學院、北京大學、香港科技大學、北京郵電大學、中國LinkSoul.AI、中國 LinkSoul.AI、加拿大滑鐵盧大學和英國謝菲爾德大學;至於 dolly-15k 資料集是一個以簡體中文為主的一般性知識問答對話資料集。
謝昆霖認為,用簡體中文的資料,再透過 OpenCC 翻譯成繁體中文,就能訓練出台灣可用的訓練資集嗎?答案絕對是否定的。除了用字遣詞的差異,還包含很多的民生知識、文化知識,用北京研究機構校正是「適用於中國的民生、文化知識」,再修剪成「台灣版」,再監督與修正的總體成本會高於「認份做台灣的資料集」。
此外,評鑑也是個大問題。謝昆霖稱,中央研究院詞庫小組說這款 LLM 經過C-Eval中文模型評測,但這是「中國清大」、「中國交大」開發的中文基礎模型評量系統。簡單來說,中研院用簡轉繁的資料集訓練完他們認為適用台灣的基礎模型,再派它考中國考試,計算分數。
中研院說明這款語言模型可用於「學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。」謝昆霖直言,一般商用的還好,但用於後面幾項「會出事的」。
謝昆霖表示,台灣的確嚴重缺乏在地語言資料集的困境,因為真的超級燒錢,是以億為單位計算的,要做好可能相當於好幾個軍購案做好多年,政府難編列預算、民意機關難說服投資、民間企業不可能投資做語言數位化,但資料集是AI時代的基礎建設。
對此,謝昆霖表示自己建立一個開放社群「中華民國台灣開源語言資料集_建立、收集、標註、監督、評鑑」,在合法的範圍內把建立台灣在地的訓練資料集,用眾人的力量做,這樣台灣的商用的AI才有在地的訓練資料可以用。
他也認為,AI 時代的競爭,需強化台灣在地用詞的資料收集、建立資料集,建立熟悉台灣在地文化的 AI,視為國防/國安投資,有急迫性和必要性。
另有 PTT 網友做測試,發現問一些敏感問題,基本上回答都相當「出乎意料」,也不難理解語言模型緊急下架的原因。
(首圖來源:Pixabay)