OpenAI 提出推理新模型 o3，o3-mini 版本明年 1 月釋出

為期 12 個工作天的「12 Days of OpenAI」最後一天，由執行長奧特曼（Sam Altman）和台裔研究資深副總裁陳信翰（Mark Chen）對外發表推理模型 o1 後繼者「o3」系列，包括 o3 和 o3-mini，是針對特定任務進行微調、較小的蒸餾模型。

o3 和 o3-mini 尚未廣泛推出，安全研究人員今日起可註冊 o3-mini 預覽版，至於 o3 預覽版將在稍晚推出。OpenAI 並未說明具體時程，奧特曼僅表示，計劃明年一月底推 o3-mini，日後再推 o3。

Today, we shared evals for an early version of the next model in our o-model reasoning series: OpenAI o3 pic.twitter.com/e4dQWdLbAD

— OpenAI (@OpenAI) December 20, 2024

▲ 奧特曼、陳信翰及團隊成員發表 o3。

OpenAI 正在使用一種新技術來深思熟慮地調整，使 o1、o3 等模型及其安全原則保持一致。

o3 這樣的推理模型透過私有 Chain of Thought 在做出反應前會「思考」，能夠自身進行事實查核，避免一些容易使模型出錯的陷阱，缺點則是模型需要較長的時間才能做出回應。

值得一提的是，o3 新功能在於調整推理時間的能力，模型可設定低、中、高計算（意即思考時間），計算量越高，o3 執行任務的表現越好。

o3, our latest reasoning model, is a breakthrough, with a step function improvement on our hardest benchmarks. we are starting safety testing & red teaming now. https://t.co/4XlK1iHxFK

— Greg Brockman (@gdb) December 20, 2024

▲ OpenAI 總裁布洛克曼（Greg Brockman）和建立 ARC-AGI 基準的喬萊（Francois Chollet）談 o3 模型。

除此之外，OpenAI 表示與 ARC-AGI 背後組織合作建立下一代基準測試，並認為正慢慢接近通用人工智慧（Artificial General Intelligence，AGI）。ARC-AGI 是一項目的在評估 AI 系統是否能在訓練資料之外有效獲取新技能的測試，o3 在高計算設定上獲得 87.5% 分數，即便最壞的情況下（低計算設定上），o3 的表現仍是 o1 的 3 倍。

最後，為何推理新模型稱做「o3」而非「o2」呢？原因在於 o2 已是其他公司註冊商標。根據外媒 The Information 報導，OpenAI 跳過 o2 採用 o3，避免與英國電信商 O2 衍生衝突，此事也獲得奧特曼的證實。

（首圖來源：shutterstock）