為期 12 個工作天的「12 Days of OpenAI」最後一天,由執行長奧特曼(Sam Altman)和台裔研究資深副總裁陳信翰(Mark Chen)對外發表推理模型 o1 後繼者「o3」系列,包括 o3 和 o3-mini,是針對特定任務進行微調、較小的蒸餾模型。
o3 和 o3-mini 尚未廣泛推出,安全研究人員今日起可註冊 o3-mini 預覽版,至於 o3 預覽版將在稍晚推出。OpenAI 並未說明具體時程,奧特曼僅表示,計劃明年一月底推 o3-mini,日後再推 o3。
Today, we shared evals for an early version of the next model in our o-model reasoning series: OpenAI o3 pic.twitter.com/e4dQWdLbAD
— OpenAI (@OpenAI) December 20, 2024
▲ 奧特曼、陳信翰及其他團隊成員發表 o3。
OpenAI 正在使用一種新技術來深思熟慮地調整,使 o1、o3 等模型及其安全原則保持一致。
o3 這樣的推理模型透過私有 Chain of Thought 在做出反應前會「思考」,能夠自身進行事實查核,避免一些容易使模型出錯的陷阱,缺點則是模型需要較長的時間才能做出回應。
值得一提的是,o3 新功能在於調整推理時間的能力,模型可設定低、中、高計算(意即思考時間),計算量越高,o3 執行任務的表現越好。
o3, our latest reasoning model, is a breakthrough, with a step function improvement on our hardest benchmarks. we are starting safety testing & red teaming now. https://t.co/4XlK1iHxFK
— Greg Brockman (@gdb) December 20, 2024
▲ OpenAI 總裁布洛克曼(Greg Brockman)和建立 ARC-AGI 基準的喬萊(Francois Chollet)談 o3 模型。
除此之外,OpenAI 表示與 ARC-AGI 背後組織合作建立下一代基準測試,並認為正慢慢接近通用人工智慧(Artificial General Intelligence,AGI)。ARC-AGI 是一項目的在評估 AI 系統是否能在訓練資料之外有效獲取新技能的測試,o3 在高計算設定上獲得 87.5% 分數,即便最壞的情況下(低計算設定上),o3 的表現仍是 o1 的 3 倍。
最後,為何推理新模型稱做「o3」而非「o2」呢?原因在於 o2 已是其他公司註冊商標。根據外媒 The Information 報導,OpenAI 跳過 o2 採用 o3,避免與英國電信商 O2 衍生衝突,此事也獲得奧特曼的證實。
- OpenAI announces new o3 models
- OpenAI teases new reasoning model—but don’t expect to try it soon
- OpenAI previews more advanced reasoning model
(首圖來源:shutterstock)