HLE 測驗 GPT-4o 準確率僅 2.7%,擊碎 AI 專家神話

作者 | 發布日期 2026 年 03 月 16 日 7:20 | 分類 AI 人工智慧 , ChatGPT , Claude line share Linkedin share follow us in feedly line share
Loading...
HLE 測驗 GPT-4o 準確率僅 2.7%,擊碎 AI 專家神話

隨著人工智慧系統在傳統測試中表現出色,研究人員發現這些基準測試已經無法再挑戰這些系統。

為了解決這項問題,近千名專家共同開發了名為「人類最後的考試」(Humanity’s Last Exam,HLE)的新型測試,這是一項涵蓋數學、人文科學、自然科學、古語言及多個高度專業領域的 2,500 題挑戰。這項考試的設計旨在排除任何當前 AI 模型能夠解答的問題,早期結果顯示,即使是最先進的系統也仍然面臨挑戰,顯示出 AI 表現與真正專家知識之間的巨大差距。

這項全球性努力的目的是測量 AI 的極限,問題的設計經過精心考量,確保每個問題都有一個明確且可驗證的答案,並防止透過簡單的網路搜尋快速解決。問題的範疇涵蓋了進階學術挑戰,包括翻譯古代帕米拉(Palmyra)文獻、辨識鳥類的細微解剖結構,以及分析希伯來語的發音特徵。

研究人員對每個問題進行測試,若任何 AI 模型能正確回答該問題,則該問題將被移除。這項過程確保了考試的難度超出當前 AI 系統的可靠解答範圍。早期測試結果顯示,強大的 AI 模型在考試中表現不佳,GPT-4o 的準確率僅為 2.7 %,而 Claude 3.5 Sonnet 的準確率為 4.1 %。OpenAI 的 o1 模型表現稍好,準確率為 8 %。目前最具能力的系統,包括 Gemini 3.1 Pro 和 Claude Opus 4.6,準確率在 40 % 到 50 % 之間。

這項考試的目的並不是要讓人類考生感到困惑或失敗,而是仔細辨識 AI 系統仍然不足的領域。AI 超越舊測試的問題不僅僅是技術上的擔憂,準確的評估工具對於政策制定者、開發者和使用者來說至關重要,因為這些基準提供了衡量進展和辨識風險的基礎。

(首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》