目前主流程式設計趨勢是代理式 AI 軟體開發,也就是由 AI 代理獨立執行程式碼任務的系統,其中最具代表性的便是 Claude Code 與 Cowork。與此同時,OpenAI 也在逐步打造 Codex,自去年 4 月以命令列工具的形式推出,並在 1 個月後擴展成網頁介面。
如今 OpenAI 邁出關鍵一步,2 日推出全新 macOS 版 Codex,整合過去一年逐漸流行的多種代理式 AI 實務做法,新的應用程式可讓多個 AI 代理並行運作,整合 AI 代理技能以及其他最先進的工作流程。這次推出,距離 OpenAI 發表 GPT-5.2-Codex 還不到 2 個月,希望藉此吸引原本使用 Claude Code 的用戶採向。
macOS 版 Codex 同時帶來一系列新功能,OpenAI 指出,這些功能有助於它在某些方面追平、甚至超越各種 Claude 工具。Codex 應用允許開發者設定可在背景自動排程執行的任務,並在開發者回來時,將結果放入佇列供其檢視。開發者也能依照自己的工作風格,為 AI 代理選擇不同的人格特質,從務實型到具有同理心的模式皆有。
「如果你真的想在複雜的事情上做高階工作,GPT-5.2 無疑是目前最強的模型。不過,它過去確實比較難用,因此我們認為,把這樣等級的模型能力放進一個更具彈性的介面,會產生相當大的影響」,OpenAI 執行長奧特曼(Sam Altman)表示。
為了向更多用戶展示 Codex 全新功能,OpenAI 在限定期間內,針對 ChatGPT Go 與免費版用戶納入 Codex,同時 ChatGPT Plus / Pro / Business / Enterprise / Edu 用戶的速率限制也翻倍。無論在何處使用 Codex,包括在應用程式內、CLI、IDE 或雲端,更高的速率限制都能適用。
GPT-5.2 目前雖在用於衡量 AI 處理命令列程式設計任務能力的基準測試 TerminalBench 位居榜首,但來自 Google Gemini 3 與 Anthropic Claude Opus 4.5 的 AI 代理也取得大致相當的分數,可說是誤差範圍之內。另一項測試 AI 修復真實世界軟體錯誤能力的基準測試 SWE-bench,其結果也相似,並未顯示 GPT-5.2 具有明顯優勢。不過,代理式 AI 使用情境本身難以有效量化評測,而先進模型在實際使用體驗上,差異可能相當明顯。
(首圖來源:OpenAI Blog)






