OpenAI 發表旗艦推理模型 o3 和 o3-mini,成為 2024 年結束之作,製造小波熱潮。和往常一樣,X 依然是討論主陣地。
這次來自OpenAI「自己人」的聲量明顯增強──幾乎所有有X帳號的OpenAI員工都在發文,為公司重大模型更新站台助威。網友越看越發現,放眼望去,滿世界都是OpenAI工程師和研究員,這次也不再只有幾個耳熟能詳的名字,整個團隊都出動了。
此情此景是否頗為熟悉,出沒X的OpenAI員工像不像網路某些品牌滿坑滿谷的「業配文」?
OpenAI全員共襄o3盛舉
領導班子帶頭PR
掌門人奧特曼就不用多說了,發售前就按捺不住以「oh oh oh」暗示新品,邀請大家申請o3測試權限:
if you are a safety researcher, please consider applying to help test o3-mini and o3. excited to get these out for general availability soon.
extremely proud of all of openai for the work and ingenuity that went into creating these models; they are great.
— Sam Altman (@sama) December 20, 2024
到強調o3-mini編程表現以顯著降低的成本超越o1,感激團隊的辛勞付出,稱一起工作是「人生最大快樂之一」;
seemingly somewhat lost in the noise of today:
on many coding tasks, o3-mini will outperform o1 at a massive cost reduction!
i expect this trend to continue, but also that the ability to get marginally more performance for exponentially more money will be really strange.
— Sam Altman (@sama) December 21, 2024
再到各種一鍵三轉同事o3發文,熱鬧非常。
o3 represents enormous progress in general-domain reasoning with RL — excited that we were able to announce some results today! Here’s a summary of what we shared about o3 in the livestream (1/n) pic.twitter.com/xq7RXZtleJ
— Nat McAleese (@__nmca__) December 20, 2024
去年12月剛結束「人生最長假期」的OpenAI聯合創辦人兼總裁Greg Brockman,回歸後一直緊密配合公司動作,勤奮宣傳。o3上線後他更力讚:新模型在最具挑戰性的測試品質大飛躍,直接達到全新高度。
o3, our latest reasoning model, is a breakthrough, with a step function improvement on our hardest benchmarks. we are starting safety testing & red teaming now. https://t.co/4XlK1iHxFK
— Greg Brockman (@gdb) December 20, 2024
首席產品長Kevin Weil和研究副總裁Mark Chen分別轉發ARC-AGI測試突破和o3-mini團隊發文。新首席資訊安全長Dane Stuckey也來「一二三,上連結」,感歎這是「多麼令人興奮的一天」。Stuckey約四年前就註冊X,直到去年10月離開Palantir Tech加入OpenAI後,才開始發文,且一改往日低調,變得異常活躍。
主創團隊攜手登場
發表直播時華裔研究員Hongyu Ren為代表,詳細介紹輕量級模型o3 mini。他之後X發文,講解o3 mini的卓越性能,包括高效性、成本效益及靈活可調的推理時間,也特別提到了幾位參與o3-mini研發的核心成員,向他們致敬。
o3-mini is here! Together with @shengjia_zhao, @_kevinlu, @max_a_schwarzer, @ericmitchellai, @brian_zq, @sandersted and many others, we trained this efficient reasoning model, maximally compressing the intelligence from big brothers o1 / o3. The model is very good in hard… pic.twitter.com/M1AM8chWB7
— Hongyu Ren (@ren_hongyu) December 20, 2024
幾位主創也紛紛回應,稱o3-mini是「聰明的小怪獸」、「速度極快」、擁有「驚人的數學和代碼性能」,自豪之情盡顯。
We trained o3-mini: both more capable than o1-mini, and around 4x faster end-to-end when accounting for reasoning tokens
with @ren_hongyu @shengjia_zhao & others pic.twitter.com/3Cujxy6yCU
— Kevin Lu (@_kevinlu) December 20, 2024
其實這些研究員在業界都頗有建樹,查看背景就會發現,不少人都是o1和o1-mini的關鍵貢獻者。不過這波官宣確實讓更多大眾認識他們,以OpenAI造星能力看,捧出幾位大模型界新KOL或許指日可待。
各組同事群發
這次「OpenAI誇誇團」團友之多,只要點進一位員工X,就能順著各種「俄羅斯娃娃式」轉發,連進其他同事稱讚o3的發文,讓人懷疑奧特曼是不是下了什麼指令,把增加o3曝光度也算進員工KPI。
任職微軟研究院十年,擔任AI副總裁及傑出科學家的知名電腦大老Sébastien Bubeck,去年10月進入OpenAI,置頂發文坦言o3和o3-mini是截至目前最喜歡的模型,o3各項評估簡直封神,特別是前端數學25%測驗成績。
o3 and o3-mini are my favorite models ever.
o3 essentially solves AIME (>90%), GPQA (~90%), ARC-AGI (~90%), and it gets 1/4th of the Frontier Maths.
To understand how insane 25% on Frontier Maths is, see this quote by Tim Gowers.
The sparks are intensifying … pic.twitter.com/sEXNIJIaNo
— Sebastien Bubeck (@SebastienBubeck) December 20, 2024
領導過GPT-4o預訓練和o1開發的研究員Aidan Clark更連發五文,激贊「Hongyu真的太厲害了」,o3-mini是第一個讓他真正提出難題的模型。專注GPT成長的技術團隊成員Anshita Saini說,o3給人的感覺很不一樣,o3系列理念讓她停下來思考「將AGI產品化的世界是什麼樣子」。
o3 feels different for me. it’s not even out yet, but the idea of it has me pausing during every interaction and activity to think about how things might look different in a world with productized AGI. that world feels closer than ever and it’s wild to feel part of shaping it
— Anshita Saini (@anshitasaini_) December 23, 2024
研究員線上剖析
除了直接力挺,還有OpenAI研究員承擔解惑角色,分享觀點澄清問題。
o3和o3-mini振奮AI社群同時,當然也引發爭議和質疑。有人因ARC-AGI測試結果歡呼AGI近在咫尺,甚至已經達成;也有人嗤之以鼻,對o3高昂算力需求和經營成本表示擔憂,吐槽這不過是又一個「畫大餅」產品。
OpenAI多模態推理研究員Noam Brown發文:外界對ARC-AGI測試的反應有些過度,突破ARC-AGI基準並不代表模型達AGI水準。他也提到AI領域的普遍現象:人們往往認為某個基準測試需要「超智慧」才能完成,但真的有模型克服這基準時,人們又會因為它沒有達到預期的「超智慧」水準而失望。
言下之意:請理性對待,不要捧殺。
To be clear, @fchollet and @mikeknoop were always very clear that beating ARC-AGI wouldn’t imply AGI or superintelligence, but it seems some people assumed that anyway.
— Noam Brown (@polynoamial) December 26, 2024
API工程主管Sherwin Wu深表贊同,提醒社群:比起ARC-AGI測試,o3程式設計和數學突破才更值得關注──o3程式設定水準超越自己,o3能答對四分之一高階數學題目,他已解不出來。
Lots of buzz around the o3 ARC-AGI result, but the AIME / Codeforces results are a lot more meaningful to me personally.
As someone who spent basically all of middle/high school tryharding at competition math – seeing o3 blow past my best showings is… humbling to say the least pic.twitter.com/DzTo6E432o
— Sherwin Wu (@sherwinwu) December 21, 2024
另外,o3模型是否使用特定資料庫、用特定領域最佳化、人為調整提示格式提高評估結果的質疑,研究員Brandon McKinzie和Rhythm Garg相繼回應:
評估用arc-agi公共訓練集僅是更大o3訓練資料的小部分,無法決定模型表現;o3是通用模型,未微調任何特定領域;ARC-AGI高分並非依賴調整提示,而是模型通用性和訓練結果的自然展現。
also: the model we used for all of our o3 evals is fully general; a subset of the arc-agi public training set was a tiny fraction of the broader o3 train distribution, and we didn’t do any additional domain-specific fine-tuning on the final checkpoint https://t.co/sLIfr5bHnP
— Rhythm Garg (@rhythmrg) December 21, 2024
關於o3的高昂價格,研究員Nat McAleese這樣解釋:雖然o3是目前測試階段成本最高的模型,但開啟「用計算換性能」的新時代。透過增加測試階段計算量,o3將模型性能提升到令人難以置信的程度。
Nat認為,儘管目前確實很貴,但隨著科技進步,token價格會逐漸降低。更關鍵的是,團隊已經找到了一種能夠有效率地將運算量轉化為效能提升的方法,這預示著未來AI模型的能力也將大幅提升。
My personal expectation is that token prices will fall and that the most important news here is that we now have methods to turn test-time compute into improved performance up to a very large scale. (11/n)
— Nat McAleese (@__nmca__) December 20, 2024
最後是OpenAI模型訓練速度的問題。在中文社群中頗有影響力的Jason Wei表示:從o1到o3的升級僅花了三個月時間,證明了基於思維鏈的強化學習新範式,比傳統預訓練方式每1-2年才能推出一個新模型的節奏要快得多。
o3 is very performant. More importantly, progress from o1 to o3 was only three months, which shows how fast progress will be in the new paradigm of RL on chain of thought to scale inference compute. Way faster than pretraining paradigm of new model every 1-2 years https://t.co/oRX5NBrDfk
— Jason Wei (@_jasonwei) December 20, 2024
連OpenAI日本辦公室總裁Tadao Nagasaki也出來捧場:「我們不是才在9月份發布了o1?現在已經開始對o3早期評估了!」
Did we just announced o1 in September? Early evils for OpenAI o3. https://t.co/xHhwwsrHsv
— Tadao Nagasaki (@tadaonagasaki) December 21, 2024
集體營業要傳達什麼訊息
這次OpenAI員工集體為o3發布背書,首先是出於對產品的高度自信。透過不同角度的解讀,他們希望外界能更全面地了解o3在數學、程式設計和推理方面的突破性成就。OpenAI有意向外界展示:自己依然是AI技術的領導者,在競爭者四起的市場上存在感依舊。
此外,在當前OpenAI面臨外界質疑、競爭壓力加劇的關鍵時間點,加之核心員工頻繁流失以及「吹哨人」風波的影響,全員營業也帶有了些許「抱團取暖」的意味。他們試圖藉這次發布向社群傳遞幾個信號:
1. 擴展法則有新突破
多位OpenAI研究員指出,o3和o3-mini驗證了增加運算資源、資料量和模型參數確實能帶來顯著效能提升,並且突破了傳統擴展法則「遞減效益」的限制,證明模型在未來仍有巨大的提升空間。
2. 技術創新沒有「撞牆」
員工們透過轉發測試數據和詳細解讀,強調o3系列的理念和性能突破了許多人對AI模型邊界的想像,不僅在性能上取得了超越預期的突破,也展現了更廣泛的適用性。相較於外界對GPT-5「難產」的傳言,OpenAI想證明他們正在開闢另一條創新之路。
3. 訓練速度並未放緩
面對外界對OpenAI模型迭代速度的質疑,特別是在全球AI競爭日益激烈的背景下,從o1到o3的快速升級成了明確回應。顯示OpenAI有能力突破傳統預訓練1-2年的開發週期,以更快的速度推出高品質模型,穩固市場信心。
回過頭看,從上線o1正式版到官宣o3,這12天技術直播更像一場聲勢浩大的OpenAI大秀。去年這個時候,那場震撼全網的OpenAI is nothing without its people全員聲援才剛剛落幕。一年過去,OpenAI不能說不好,卻也不復曾經GPT時的巔峰輝煌。經歷了各種高低曲折後,或許每位員工都想在年底拚一把來make OpenAI great again。
(本文由 品玩 授權轉載;首圖來源:shutterstock)