Vibe Coding 新神器登場，OpenAI 推出 macOS 版 Codex

目前主流程式設計趨勢是代理式 AI 軟體開發，也就是由 AI 代理獨立執行程式碼任務的系統，其中最具代表性的便是 Claude Code 與 Cowork。與此同時，OpenAI 也在逐步打造 Codex，自去年 4 月以命令列工具的形式推出，並在 1 個月後擴展成網頁介面。

如今 OpenAI 邁出關鍵一步，2 日推出全新 macOS 版 Codex，整合過去一年逐漸流行的多種代理式 AI 實務做法，新的應用程式可讓多個 AI 代理並行運作，整合 AI 代理技能以及其他最先進的工作流程。這次推出，距離 OpenAI 發表 GPT-5.2-Codex 還不到 2 個月，希望藉此吸引原本使用 Claude Code 的用戶採向。

macOS 版 Codex 同時帶來一系列新功能，OpenAI 指出，這些功能有助於它在某些方面追平、甚至超越各種 Claude 工具。Codex 應用允許開發者設定可在背景自動排程執行的任務，並在開發者回來時，將結果放入佇列供其檢視。開發者也能依照自己的工作風格，為 AI 代理選擇不同的人格特質，從務實型到具有同理心的模式皆有。

「如果你真的想在複雜的事情上做高階工作，GPT-5.2 無疑是目前最強的模型。不過，它過去確實比較難用，因此我們認為，把這樣等級的模型能力放進一個更具彈性的介面，會產生相當大的影響」，OpenAI 執行長奧特曼（Sam Altman）表示。

為了向更多用戶展示 Codex 全新功能，OpenAI 在限定期間內，針對 ChatGPT Go 與免費版用戶納入 Codex，同時 ChatGPT Plus / Pro / Business / Enterprise / Edu 用戶的速率限制也翻倍。無論在何處使用 Codex，包括在應用程式內、CLI、IDE 或雲端，更高的速率限制都能適用。

GPT-5.2 目前雖在用於衡量 AI 處理命令列程式設計任務能力的基準測試 TerminalBench 位居榜首，但來自 Google Gemini 3 與 Anthropic Claude Opus 4.5 的 AI 代理也取得大致相當的分數，可說是誤差範圍之內。另一項測試 AI 修復真實世界軟體錯誤能力的基準測試 SWE-bench，其結果也相似，並未顯示 GPT-5.2 具有明顯優勢。不過，代理式 AI 使用情境本身難以有效量化評測，而先進模型在實際使用體驗上，差異可能相當明顯。

（首圖來源：OpenAI Blog）