AI 數學真的沒很好,五大模型 ORCA 測試成績不及格

作者 | 發布日期 2025 年 11 月 20 日 7:40 | 分類 AI 人工智慧 , 科技教育 , 科技趣聞 line share Linkedin share follow us in feedly line share
Loading...
AI 數學真的沒很好,五大模型 ORCA 測試成績不及格

喬治·歐威爾(George Orwell)知名小說《一九八四》的世界,2+2=5,大型語言模型(LLMs)數學計算表現也不盡如人意。波蘭 Omni Calculator 及多所歐洲大學開發的 ORCA 基準測試,五款主流 AI 模型的數學測試均未及格,得分平均 63% 以下。

參加「考試」的模型為ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2。儘管其他數學能力評估基準如GSM8K和MATH-500,某些模型得分高達0.95,但ORCA研究顯示,模型邏輯和算術仍有不少錯誤。

根據牛津大學數據,AI模型數學推理得分為-7.44,遠低於人類標準。研究者指出,許多現有基準資料庫都納入模型訓練資料,使模型考試前就有答案,故無法真實評估計算推理力。

10月這次評估,研究者以500個數學相關提示,涵蓋生物學、化學、工程、金融、健康、數學、物理和統計等領域。結果顯示,Gemini 2.5 Flash整體準確率最高,達63%,Grok 4緊跟,準確率62.8%。和Claude Sonnet 4.5表現較差,分別為49.4%和45.2%。

Claude Sonnet 4.5所有類問題得分均未超過65%,DeepSeek V3.2表現很不平均,數學和轉換類得分為74.1%,但生物學和化學類僅10.5%。顯示即使最先進模型,確定性推理任務仍會明顯失誤。

AI基準測試結果雖不一定能反映真實計算力,模型表現可能隨調整修改而變化,但仍顯示AI推理算術力仍有改善空間。

(首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》