喬治·歐威爾(George Orwell)知名小說《一九八四》的世界,2+2=5,大型語言模型(LLMs)數學計算表現也不盡如人意。波蘭 Omni Calculator 及多所歐洲大學開發的 ORCA 基準測試,五款主流 AI 模型的數學測試均未及格,得分平均 63% 以下。
參加「考試」的模型為ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2。儘管其他數學能力評估基準如GSM8K和MATH-500,某些模型得分高達0.95,但ORCA研究顯示,模型邏輯和算術仍有不少錯誤。
根據牛津大學數據,AI模型數學推理得分為-7.44,遠低於人類標準。研究者指出,許多現有基準資料庫都納入模型訓練資料,使模型考試前就有答案,故無法真實評估計算推理力。
10月這次評估,研究者以500個數學相關提示,涵蓋生物學、化學、工程、金融、健康、數學、物理和統計等領域。結果顯示,Gemini 2.5 Flash整體準確率最高,達63%,Grok 4緊跟,準確率62.8%。和Claude Sonnet 4.5表現較差,分別為49.4%和45.2%。
Claude Sonnet 4.5所有類問題得分均未超過65%,DeepSeek V3.2表現很不平均,數學和轉換類得分為74.1%,但生物學和化學類僅10.5%。顯示即使最先進模型,確定性推理任務仍會明顯失誤。
AI基準測試結果雖不一定能反映真實計算力,模型表現可能隨調整修改而變化,但仍顯示AI推理算術力仍有改善空間。
(首圖來源:shutterstock)






