報告指開源模型與閉源模型性能差距逐漸接近

AI 新創公司 Galileo 近日發表全面基準測試報告，開源語言模型正迅速縮小與閉源對手的性能差距。這轉變可能重塑 AI 格局，有潛力將先進 AI 功能民主化，加速各行業創新。

Galileo 第二份年度「幻覺指數」評估 22 個領先大型語言模型的生成不準確資訊傾向。雖然閉源模型整體領先，但只約八個月，差距就顯著縮小。Galileo 聯合創辦人兼 CEO Vikram Chatterji 表示：「開源模型顯著進步令人難以置信。去年 10 月，前五、六名都是閉源 API 模型領先，主要是 OpenAI 模型。現在開源模型縮小不少差距。」

Anthropic Claude 3.5 Sonnet 模型表現最佳，超過去年占主導地位的 OpenAI 產品，Google Gemini 1.5 Flash 模型以更低價格有強勁性能，成為最具成本效益的選擇。

阿里巴巴開源模型 Qwen2-72B-Instruct 短文本和中等長度輸入表現最佳，表示中國公司 AI 開發取得重大進展，挑戰美國主導地位。Chatterji 認為，這是 AI 技術更廣泛民主化的開始，「世界各地、不同經濟階層團隊都能構建令人難以置信的產品。」