OpenAI o3 模型推升 AI 發展，高昂運算成本成挑戰

OpenAI 新發表的 o3 系列模型表明 AI 正以新的方式擴展，成本隨之增加。

Moore’s law（摩爾定律）是指積體電路上可容納的電晶體數量大約每隔 18 個月便會增加一倍，性能也提升一倍，但價格相同，於是半導體製程技術不斷提升，成本可望下降。而在 AI 領域有 Scaling Laws 做為核心假設，隨著模型大小、資料集大小及用於訓練的運算量不斷增加，模型性能可望提升，這點對大型語言模型相當重要，幫助人們在訓練前預測模型能力。

不過，近來高品質訓練資料不足成了模型進展趨緩的一大原因，未來訓練模型勢必耗費更多運算資源，訓練成本隨之上升。AI 領域許多人則將 OpenAI 新推出的 o3，視為 AI 發展尚未碰壁的證據。

OpenAI o3 性能出色、成本高昂

OpenAI 研究員 Noam Brown 參與開發 OpenAI o 系列模型，他表示宣布 o1 後只過 3 個月即發表 o3，是令人印象深刻的成果，並認為「我們有充分的理由相信此一軌跡將會繼續下去。」

We announced @OpenAI o1 just 3 months ago. Today, we announced o3. We have every reason to believe this trajectory will continue. pic.twitter.com/Ia0b63RXIk

— Noam Brown (@polynoamial) December 20, 2024

▲ 布朗稱 o3 是令人印象深刻的成果。

OpenAI 資料顯示，o3 在基準測試表現出色，尤其新的 ARC-AGI 通用能力測試得分明顯超越其他模型，在一項困難的數學測試取得 25% 分數，其他模型的分數均未達到 2%。

Anthropic 共同創辦人 Jack Clark 在個人電子報寫道，o3 現身意味著明年的 AI 發展將比今年更快。明年 AI 領域將把 test-time scaling 和傳統的預訓練擴展方法結合起來，期望能有更多模型進展，也許他在暗示 Anthropic 及其他 AI 公司應在明年開發出自己的推理模型，這點除 OpenAI 外，Google 有全新 Gemini 2.0 Flash Thinking 來支援自家發展。

test-time scaling 意味著 ChatGPT「推理」時需要更多運算，無論是使用更多、更強大的晶片來回答用戶問題，還是在晶片上使用更長時間轉變成更好的答案，目前還不清楚 o3 背後如何運作，卻都代表回答問題的代價更高。

o3 在 ARC-AGI 通用能力測試的表現可視為模型進展重要指標，其一得分為 88%，也比 o1 最高得分 32% 來得更高。值得注意的是，參考下圖 X 軸所示可能令人感到震驚，o3 取得高得分需要使用價值超過 1,000 美元的運算資源，成本相當高，而 o1 運算資源最高只需約 5 美元、o1-mini 不到 1 美元。提出 ARC-AGI 基準測試的 François Chollet 在官方部落格寫道，OpenAI 大約使用 170 倍的運算量才達到 88% 分數。

▲ o3 在 ARC-AGI 基準測試取得高分。（Source：ARC Prize）

OpenAI 提出月付 200 美元的 CahtGPT Pro 方案，以取得使用 o1 正式版的使用資格。根據外媒報導，OpenAI 甚至考慮高達 2,000 美元月費的方案。當人們看看上述 o3 使用多少運算量時，或許就能理解 OpenAI 為何如此設計。

「對大多數用途而言，o3 看起來太貴了。但面對學術界、金融界或許多工業問題的工作，付出數百美元甚至數千美元來取得成功的答案並不會讓我們望之卻步」，華頓商學院教授 Ethan Mollick 在 X 推文寫道。

O3 looks too expensive for most use. But for work in academia, finance & many industrial problems, paying hundreds or even thousands of dollars for a successful answer would not be we prohibitive. If it is generally reliable, o3 will have multiple use cases even before costs drop

— Ethan Mollick (@emollick) December 22, 2024