OpenAI 最強模式被爆造假！提前取得測驗題，頂級數學家被蒙在鼓裡

近日，OpenAI 再次陷入了輿論風波。事件源自於 LessWrong 論壇上的一則爆料。一位名為「Meemi」的 Epoch AI 承包商透露，OpenAI 不僅為 FrontierMath 基準測試提供資金支持，還獲得了測試題庫的特權存取權。而這或許也是 o3 的成績在短時間內獲得大幅提升的重要原因。但這個訊息直到去年 12 月 20日 o3 發表時，才由 Epoch AI 對外公布。

消息一出，瞬間在AI圈引起軒然大波，因為這很難不讓網友懷疑OpenAI是既當裁判，也當選手。

吃瓜之前，需要先給不熟悉的朋友先捋事件的背景資訊。

去年12月，OpenAI正式發表了新一代號稱突破AI極限的o3模型。在其中一項名為FrontierMath 的AI數學基準測試（成績單）中，OpenAI以25.2%的準確率遙遙領先，遠超GPT-4和Gemini等模型不足2%的成績。

FrontierMath是一個分量極重的高階數學推理能力評估基準。它由Epoch AI聯手60多位頂尖數學家共同打造，參與者包括多位菲爾茲獎得主和國際數學奧林匹克競賽的資深命題人。此基準包含數百個原創且極具挑戰性的數學問題，涵蓋現代數學的多個主要分支，如數論、實分析、代數幾何、範疇論等。

2006年菲爾茲獎得主、數學天才陶哲軒曾評價FrontierMath的問題「極其具有挑戰性」，並認為這些問題只能由領域專家來解決。他指出，即使是人類專家，解決這些問題也需要數小時甚至數天的努力。

本顯示o3在高級數學推理方面有巨大進步的成績單，卻在承包商的爆料後迎來了風評反轉。面對爭議，Epoch AI副主任兼聯合創始人之一Tamay Besiroglu很快就在X平台承認了這件事。

我們犯了一個錯誤，沒有更早揭露OpenAI在FrontierMath中的參與。我們的合約在o3發布前禁止我們這麼做。事後看來，我們確實應該更努力爭取更早的透明。我們承認這一點，並承諾未來會做得更好。

事態進一步發酵，史丹佛大學數學博士生Carina Hong聲稱，在Epoch AI的安排下，OpenAI擁有對FrontierMath的特權存取權。

「對FrontierMath基準測試做出重大貢獻的六位數學家向我證實，他們並不知道OpenAI會獨占該基準測試的訪問權限，而其他人無法獲得，多數人表示，如果他們事先知情，可能不會選擇參與。」

面對質疑聲浪，Tamay Besiroglu也透過部落格表達歉意，承諾未來將採用更高的透明度標準。

部落格強調OpenAI的資金支持僅限於FrontierMath的開發，並未干預測試內容，同時聲明所有數據和問題均來自獨立貢獻者並經過獨立專家審核。

關於訓練使用：我們承認OpenAI確實可以存取大部分FrontierMath問題和解決方案，但不包括OpenAI無法存取的保留集，這使我們能夠獨立驗證模型功能。此外，我們有一個口頭協議，這些材料不會用於模型訓練。

相關OpenAI員工的公開溝通將FrontierMath描述為「嚴格保留」的評估集。雖然這種公開立場與我們的理解一致，但我還要進一步強調，實驗室從擁有真正未受污染的資料集中獲益匪淺。

OpenAI也完全支持我們維護一個單獨的、未公開保留的資料集的決定，這是一種額外的保護措施，可以防止過度擬合並確保準確的進度測量。自最初設計之時起，FrontierMath就被定位並展示為評估工具，我們相信這些安排反映了這一目的。

[編輯：澄清了OpenAI的資料存取–他們無權存取做為獨立驗證額外保護措施的單獨保留集。 ]

Epoch AI的首席數學家Elliot Glazer承認在專案過程中未主動披露行業資助方面的訊息，並向那些如果事先知情可能不會參與的數學家道歉。

關於o3成績，他表示相信OpenAI報告的分數準確性，但強調Epoch AI需要透過正在開發的獨立保留測試集來驗證，並承諾保留集評估分數將公開。

當被質疑保留集狀態時，Glazer澄清這個測試集仍在開發中，而不是已經完成。