AI 真的聰明嗎?專家揭露評估標準的缺陷

作者 | 發布日期 2025 年 05 月 23 日 11:45 | 分類 AI 人工智慧 , ChatGPT line share Linkedin share follow us in feedly line share
Loading...
AI 真的聰明嗎?專家揭露評估標準的缺陷

在人工智慧(AI)領域,儘管近年來取得顯著進步,許多模型在解決複雜問題方面仍然面臨挑戰,尤其是在高級推理任務上。根據最新研究,許多 AI 模型在數學推理和邏輯應用方面的表現並不如預期,這引發了對現有評估標準的質疑。

AI模型如ChatGPT、Aiva和Midjourney等,雖然在生成文本、音樂和藝術方面展現驚人的創造力,並且在傳統的數學基準測試中表現出色,準確率超過90%,但在需要深入理解的高級數學推理上卻經常失敗。這些模型在面對不熟悉或非結構化的邏輯問題時,往往無法有效應對。

例如,研究人員開發了GSM-Symbolic基準,這個新標準透過改變問題的名稱和數值來測試模型的適應能力,結果顯示即使邏輯結構相似,模型的表現卻顯著下降。數學教育者Matthew Yip博士指出,當前的評估方法過於依靠模型重複訓練數據,而非從根本上進行推理。

此外,UTMath基準的研究顯示,最佳模型僅能解決約32.57%的問題,而在由 60 多位數學家共同開發、主攻原創高難度題目的FrontierMath基準中,當前最先進的AI模型出不到2%。這些結果顯示AI在理解數學概念和解決複雜問題方面的挑戰。

隨著AI技術在金融、醫療和科學研究等多個行業的應用日益廣泛,這些模型的推理能力不足可能會導致在現實世界中的問題。專家們警告,仰賴於獎勵模式(reward model)識別的基準可能會阻礙AI系統的真正推理能力的發展。

Yip博士強調,開發更為完整的基準以評估推理和適應能力至關重要。他建議,未來的基準應該能夠追蹤模型的推理過程,而不僅僅是判斷最終答案是否正確。這樣的基準應該包含多元題庫,評估推理過程,並最小化模型僅依賴記憶的可能性。

隨著AI系統在社會各個方面的應用,確保這些系統具備真正的理解能力變得愈加重要。Yip博士指出,重新思考如何評價推理過程──結合教育、認知科學與對抗式測驗的啟示──我們才能推動 AI 朝「真智慧」邁進,而非只是機械模仿。

(首圖來源:AI 生成)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》