中研院 AI 大翻車！繁中大型語言模型 CKIP-Llama-2-7b 下架

中央研究院詞庫小組（CKIP）最新釋出可以商用的繁中大型語言模型（large language model）CKIP-Llama-2-7b，「孵‧大學」校長謝昆霖直言「中研院 AI 大翻車！」，在仔細端詳內容後他立刻跟夥伴說「一定會出問題」，模型今日中午下架。

謝昆霖解釋，這款語言模型的多任務微調訓練，是使用「COIG-PC 資料集」和「dolly-15k 資料集」這兩款簡轉繁資料集。前者是北京星塵數據 stardust.ai 提供網路資料集，以中國 AI 相關研究單位為首，超過二十所全球知名大學和機構共同編制。

根據 COIG-PC 資料集網站，重點機構包括北京人工智慧學院、北京大學、香港科技大學、北京郵電大學、中國LinkSoul.AI、中國 LinkSoul.AI、加拿大滑鐵盧大學和英國謝菲爾德大學；至於 dolly-15k 資料集是一個以簡體中文為主的一般性知識問答對話資料集。

謝昆霖認為，用簡體中文的資料，再透過 OpenCC 翻譯成繁體中文，就能訓練出台灣可用的訓練資集嗎？答案絕對是否定的。除了用字遣詞的差異，還包含很多的民生知識、文化知識，用北京研究機構校正是「適用於中國的民生、文化知識」，再修剪成「台灣版」，再監督與修正的總體成本會高於「認份做台灣的資料集」。

此外，評鑑也是個大問題。謝昆霖稱，中央研究院詞庫小組說這款 LLM 經過C-Eval中文模型評測，但這是「中國清大」、「中國交大」開發的中文基礎模型評量系統。簡單來說，中研院用簡轉繁的資料集訓練完他們認為適用台灣的基礎模型，再派它考中國考試，計算分數。

中研院說明這款語言模型可用於「學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。」謝昆霖直言，一般商用的還好，但用於後面幾項「會出事的」。

謝昆霖表示，台灣的確嚴重缺乏在地語言資料集的困境，因為真的超級燒錢，是以億為單位計算的，要做好可能相當於好幾個軍購案做好多年，政府難編列預算、民意機關難說服投資、民間企業不可能投資做語言數位化，但資料集是AI時代的基礎建設。

對此，謝昆霖表示自己建立一個開放社群「中華民國台灣開源語言資料集_建立、收集、標註、監督、評鑑」，在合法的範圍內把建立台灣在地的訓練資料集，用眾人的力量做，這樣台灣的商用的AI才有在地的訓練資料可以用。

他也認為，AI 時代的競爭，需強化台灣在地用詞的資料收集、建立資料集，建立熟悉台灣在地文化的 AI，視為國防/國安投資，有急迫性和必要性。

另有 PTT 網友做測試，發現問一些敏感問題，基本上回答都相當「出乎意料」，也不難理解語言模型緊急下架的原因。

（首圖來源：Pixabay）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新