近日,OpenAI 再次陷入了輿論風波。事件源自於 LessWrong 論壇上的一則爆料。一位名為「Meemi」的 Epoch AI 承包商透露,OpenAI 不僅為 FrontierMath 基準測試提供資金支持,還獲得了測試題庫的特權存取權。而這或許也是 o3 的成績在短時間內獲得大幅提升的重要原因。但這個訊息直到去年 12 月 20日 o3 發表時,才由 Epoch AI 對外公布。
消息一出,瞬間在AI圈引起軒然大波,因為這很難不讓網友懷疑OpenAI是既當裁判,也當選手。
吃瓜之前,需要先給不熟悉的朋友先捋事件的背景資訊。
去年12月,OpenAI正式發表了新一代號稱突破AI極限的o3模型。在其中一項名為FrontierMath 的AI數學基準測試(成績單)中,OpenAI以25.2%的準確率遙遙領先,遠超GPT-4和Gemini等模型不足2%的成績。
FrontierMath是一個分量極重的高階數學推理能力評估基準。它由Epoch AI聯手60多位頂尖數學家共同打造,參與者包括多位菲爾茲獎得主和國際數學奧林匹克競賽的資深命題人。此基準包含數百個原創且極具挑戰性的數學問題,涵蓋現代數學的多個主要分支,如數論、實分析、代數幾何、範疇論等。
2006年菲爾茲獎得主、數學天才陶哲軒曾評價FrontierMath的問題「極其具有挑戰性」,並認為這些問題只能由領域專家來解決。他指出,即使是人類專家,解決這些問題也需要數小時甚至數天的努力。
本顯示o3在高級數學推理方面有巨大進步的成績單,卻在承包商的爆料後迎來了風評反轉。面對爭議,Epoch AI副主任兼聯合創始人之一Tamay Besiroglu很快就在X平台承認了這件事。
我們犯了一個錯誤,沒有更早揭露OpenAI在FrontierMath中的參與。我們的合約在o3發布前禁止我們這麼做。事後看來,我們確實應該更努力爭取更早的透明。我們承認這一點,並承諾未來會做得更好。
事態進一步發酵,史丹佛大學數學博士生Carina Hong聲稱,在Epoch AI的安排下,OpenAI擁有對FrontierMath的特權存取權。
「對FrontierMath基準測試做出重大貢獻的六位數學家向我證實,他們並不知道OpenAI會獨占該基準測試的訪問權限,而其他人無法獲得,多數人表示,如果他們事先知情,可能不會選擇參與。」
面對質疑聲浪,Tamay Besiroglu也透過部落格表達歉意,承諾未來將採用更高的透明度標準。
部落格強調OpenAI的資金支持僅限於FrontierMath的開發,並未干預測試內容,同時聲明所有數據和問題均來自獨立貢獻者並經過獨立專家審核。
關於訓練使用:我們承認OpenAI確實可以存取大部分FrontierMath問題和解決方案,但不包括OpenAI無法存取的保留集,這使我們能夠獨立驗證模型功能。此外,我們有一個口頭協議,這些材料不會用於模型訓練。
相關OpenAI員工的公開溝通將FrontierMath描述為「嚴格保留」的評估集。雖然這種公開立場與我們的理解一致,但我還要進一步強調,實驗室從擁有真正未受污染的資料集中獲益匪淺。
OpenAI也完全支持我們維護一個單獨的、未公開保留的資料集的決定,這是一種額外的保護措施,可以防止過度擬合並確保準確的進度測量。自最初設計之時起,FrontierMath就被定位並展示為評估工具,我們相信這些安排反映了這一目的。
[編輯:澄清了OpenAI的資料存取–他們無權存取做為獨立驗證額外保護措施的單獨保留集。 ]
Epoch AI的首席數學家Elliot Glazer承認在專案過程中未主動披露行業資助方面的訊息,並向那些如果事先知情可能不會參與的數學家道歉。
關於o3成績,他表示相信OpenAI報告的分數準確性,但強調Epoch AI需要透過正在開發的獨立保留測試集來驗證,並承諾保留集評估分數將公開。
當被質疑保留集狀態時,Glazer澄清這個測試集仍在開發中,而不是已經完成。
但這些解釋並未能平息事件的爭議,更多批評風浪湧向Epoch AI以及身處輿論漩渦的OpenAI。
電腦科學家Subbarao Kambhampati表示,他先前就對OpenAI聲稱未預先接觸奧林匹克數學和FrontierMath數據的說法持懷疑態度。在他看來,OpenAI禁止相關方揭露協議內容的做法本身就極具可疑性。
知名AI專家Gary Marcus對此事件提出猛烈批評。
他將OpenAI的o3演示描述為一場「絕望的、操縱的、誤導性的、科學上粗製濫造的展示」,認為這更像是一次過度炒作而非真實突破。
一個生動的打比方是,如果有人提前獲得了試題和答案,而其他人只能靠實力應考,這樣的比較顯然缺乏公平性。OpenAI不僅獲得了問題和解決方案的存取權,而其他競爭對手如xai、DeepMind以及學術團隊卻無法獲得相同資源。
更重要的是,Gary Marcus認為OpenAI對這個關鍵背景事實隻字未提。
並且在展示過程中,OpenA選擇性地隱藏了關鍵訊息,既未公布在具體問題上的成功與失敗案例,也沒有提供相應的推理過程記錄,更未說明哪些問題出現在訓練集中。同時,他們也沒有允許Epoch對保留測試集進行驗證。
而回歸到這場愈演愈烈的風波,很大程度上源於網友們對OpenAI無休止炒作的厭倦。疑似「刷榜」的行為,也再次觸及了許多網友敏感的神經。
就在輿論持續發酵之際,OpenAI又宣布其「Operator」計畫突破,CEO Altman預計將於1月30日向美國政府進行閉門簡報。
據悉,「Operator」是OpenAI開發的一種具有博士級能力的自主AI智慧體,能夠在瀏覽器中獨立執行任務,例如編寫程式碼、預訂旅行、管理日程等。
當然,在這個節骨眼上,或許最好的危機公關策略就是立刻發表o3。而這也是最好的春節禮物。
截至發稿前,OpenAI尚未進一步做出聲明。