HLE 測驗 GPT-4o 準確率僅 2.7%，擊碎 AI 專家神話

隨著人工智慧系統在傳統測試中表現出色，研究人員發現這些基準測試已經無法再挑戰這些系統。

為了解決這項問題，近千名專家共同開發了名為「人類最後的考試」（Humanity’s Last Exam，HLE）的新型測試，這是一項涵蓋數學、人文科學、自然科學、古語言及多個高度專業領域的 2,500 題挑戰。這項考試的設計旨在排除任何當前 AI 模型能夠解答的問題，早期結果顯示，即使是最先進的系統也仍然面臨挑戰，顯示出 AI 表現與真正專家知識之間的巨大差距。

這項全球性努力的目的是測量 AI 的極限，問題的設計經過精心考量，確保每個問題都有一個明確且可驗證的答案，並防止透過簡單的網路搜尋快速解決。問題的範疇涵蓋了進階學術挑戰，包括翻譯古代帕米拉（Palmyra）文獻、辨識鳥類的細微解剖結構，以及分析希伯來語的發音特徵。

研究人員對每個問題進行測試，若任何 AI 模型能正確回答該問題，則該問題將被移除。這項過程確保了考試的難度超出當前 AI 系統的可靠解答範圍。早期測試結果顯示，強大的 AI 模型在考試中表現不佳，GPT-4o 的準確率僅為 2.7 %，而 Claude 3.5 Sonnet 的準確率為 4.1 %。OpenAI 的 o1 模型表現稍好，準確率為 8 %。目前最具能力的系統，包括 Gemini 3.1 Pro 和 Claude Opus 4.6，準確率在 40 % 到 50 % 之間。

這項考試的目的並不是要讓人類考生感到困惑或失敗，而是仔細辨識 AI 系統仍然不足的領域。AI 超越舊測試的問題不僅僅是技術上的擔憂，準確的評估工具對於政策制定者、開發者和使用者來說至關重要，因為這些基準提供了衡量進展和辨識風險的基礎。