OpenAI Codex 不打算讓 Anthropic Claude Code 好過，但工程師：小孩子才做選擇，我全都要！

OpenAI 總裁 Greg Brockman 2 月 6 日 X 向公司工程團隊喊話，內容是 deadline：到 3 月 31 日，任何技術任務，工程師第一工具應是 AI 代理，而不是編輯器或終端。這是 OpenAI 給自己的動員令。

Software development is undergoing a renaissance in front of our eyes.

If you haven’t used the tools recently, you likely are underestimating what you’re missing. Since December, there’s been a step function improvement in what tools like Codex can do. Some great engineers at…

— Greg Brockman (@gdb) February 6, 2026

如果只看這句話，可能會覺得又是矽谷的願景宣言。但接下來六週發生的事顯示，Brockman不只是喊喊口號，OpenAI程式代理平台Codex，正在經歷罕見產品衝刺，密度之高，節奏之快，甚至讓長期關注AI程式工具的開發者重新審視自己的工具鏈，同時Codex在程式設計師社群的熱度和口碑也明顯上升。

而一切都是為了「狙擊」Anthropic如日中天的Claude Code。

六週瘋狂更新

拉一下時間軸就能感受到節奏多快。

2月2日，Codex桌面App發表（macOS），OpenAI同時宣布向ChatGPT免費和Go用戶開放Codex，所有付費用戶的速率限制翻倍。
2月5日，GPT-5.3-Codex發表，OpenAI稱之為「第一個幫助創造了自身的模型」。同一天，Anthropic發行Claude Opus 4.6。
2月12日，Codex-Spark發布，與AI推理硬體公司Cerebras合作，推理速度超過每秒1,000 tokens。OpenAI的說法是，「當模型能力越來越強，交互速度就成了明確的瓶頸。」
2月14日，OpenClaw創辦人Peter Steinberger宣布加入OpenAI。根據Pragmatic Engineer報導，Steinberger用Codex寫了OpenClaw的全部程式碼，偏好長時間運行的agentic loop。Sam Altman在X上稱他為「天才」，說他將「推動下一代personal agents」。
3月4日，Codex桌面App登陸Windows。
3月5日，GPT-5.4發布，是OpenAI第一個同時具備reasoning、coding和原生computer use能力的通用模型，在Codex和API中支援100萬token上下文。
3月6日，Codex Security進入research preview。這是OpenAI推出的應用程式安全代理，前身為內測階段的Aardvark，能夠分析程式碼倉庫、建置專案級威脅模型、在沙盒中驗證漏洞並提出修復建議。在過去30天的beta測試中，它掃描了超過120萬次commits，發現792個critical等級漏洞和超過10,000個高風險問題，涵蓋OpenSSH、GnuTLS、Chromium等重量級開源專案。誤報率降低超過50%，噪音降低84%。

使用數字也同步攀升。Sam Altman在X確認，Codex的週活躍使用者年初迄今增長超過三倍；Codex團隊負責人Thibault Sottiaux（Tibo）告訴Pragmatic Engineer的Gergely Orosz，1月後使用量增長五倍，週活躍開發者超過百萬，Tibo還在Podcast提到，超級盃週日播出的Codex廣告更幾乎馬上湧入巨大流量。

六週，七次大動作，成了OpenAI產品最激烈衝刺。

再看供給側變化。GPT-5系列模型代理力過去幾個月品質大躍進，從上下文視窗、工具調用到長時間自動執行，模型功能已可支撐寫程式代理這產品的臨界點。需求側訊號同樣強烈，SemiAnalysis報導，Anthropic Claude Code已有25億美元年化收入，占企業收入過半。Claude Code用真金白銀證明程式代理可成為AI公司核心收入引擎。對估值據報達數千億美元的OpenAI來說，當然不可能放棄這賽道。

▲ SemiAnalysis預測AnthropicARR增速一度超過OpenAI。

兩家公司貼身肉搏時間點也值得注意。GPT-5.3-Codex和Claude Opus 4.6在2月5日同天發表，Codex Security和Claude Code Security幾乎同期推出，這本身就是訊號，兩家公司都把程式代理平台視為最大戰場。

開發者開始從Claude Code單一模式變成混合模式

Anthropic Claude Code沒有對手有段時間了，使用者已逐漸習慣依賴它。OpenAI顯然不想讓Anthropic一帆風順下去，Codex狂衝猛進後，開發者社群開始有了變化。一個月來Reddit和Hacker News關於Codex和Claude Code的討論，出現率最高主題不是更好或取代，而是「stacking」（堆疊）。也就是說，越來越多開發者不是只選一個AI用，而是都用。

Calvin French-Owen是典型案例，他是Segment聯合創辦人，曾參與OpenAI Codex Web產品發表，同時也是Claude Code深度使用者。2月他於Podcast說，選擇工具的核心標準是「我有多少時間，以及我想讓它自動程度多高」。

他的日常流程是用Claude Code規劃、編排終端和管理git，然後換到Codex寫程式。他說Opus跨上下文視窗工作效率更高，會同時啟動多個子代理併行探索程式庫，而Codex長時間自動寫程式更穩定。

Reddit也出現不少分工模式細節。有開發者詳述五段式workflow，先讓Claude Code做計畫，再讓Codex review做計畫，然後Claude實行，最後交給Codex做code review和QA反覆運算。還有人直接把Claude Code和Codex串成一個CLI bridge，因手動在兩者之間複製貼上太累了。

一篇社群文分析總結500多條Reddit評論，Claude Code一組小樣本盲測勝率達67%，品質更高，但Codex 20美元套餐能寫一整天程式，Claude Code同價位十幾個提示詞就用完了。「Claude Code品質更高但用不夠，Codex稍弱但能寫整天」，這是3月開發者社群最真實的共識。

We’re sharing a new method for scoring models on agentic coding tasks.

Here’s how models in Cursor compare on intelligence and efficiency: pic.twitter.com/VItnifMh55

— Cursor (@cursor_ai) March 12, 2026

▲ Cursor官方benchmark，GPT系列整體領先其他模型。

開發者社群還有個比喻描述兩者氣質差異，Claude像美國人，適合做充滿創造力的探索和腦力激盪，Codex像德國人，代表極致的效率和專注力。「Codex就像咬住肉不放的狗，非常固執，會一直嘗試直到解決問題。」

當然也有反面聲音。Hacker News有開發者批Codex「每項都比Claude Code差」，尤其是code review會製造看似合理但不存在的問題，他最後只將Codex用在檢查Claude的結果。但大方向已很明確，社群討論已從哪個更好就用哪個，變成兩個都用，各司其職。

不再比benchmark，而是誰更實用

只看模型benchmark，不太容易理解Codex為什麼崛起。SWE-Bench這類程式評測，Claude Opus 4.6仍然領先，真讓Codex拉開差異的地方在別處，OpenAI正在專為它構建整套工程系統。

Orosz 2月發表Codex團隊深度報導，最引人注目的是Codex超過90%程式是Codex自己寫的。Anthropic也有類似說法，Claude Code建立者Boris Cherny告訴Orosz，Claude Code數字大致相當。當然90%仍需打個折，成熟專案的樣本程式、測試範例、常規重構佔大量行數，核心架構決策仍然是人寫的。但兩家AI實驗室都在用自己的程式工具寫程式工具，這本身就說明程式AI工具已深入日常工作流程。

▲ Codex基本工作原理。

Codex團隊的工程組織層面走得更遠。Orosz報導描述新工作方式，Codex團隊的典型工程師同時跑四至八個代理，分別處理feature開發、程式檢查、安全審查、程式庫理解、bug修復等。工程師角色已從寫程式變成管理AI代理。

技術選型，Codex CLI選擇Rust（Claude Code用TypeScript）。團隊負責人Tibo理由不僅是性能和正確性，還有工程文化，選擇Rust是為了幫團隊設定高工程標準，同時減少依賴npm生態，他們甚至招募Rust終端UI庫Ratatui的維護者全職加入團隊。

更值得關注的是分層程式審查機制。Codex團隊訓練特製程式檢查模型，據Tibo說約90%評論能指出有效問題。審查分兩層，非關鍵程式在AI複查後可直接合併，核心代理程式和開源元件仍然要求強制人工審查，這套機制意義在於，審查也開始分層了。

還有兩個細節能說明Codex從單工具走向系統。Codex可執行自己的完整測試套件測試自己；團隊還設置夜間巡檢，讓Codex自動掃描程式庫並產生待審修復建議，工程師每天早上進公司時就有一批修復等著他複查。

AI開發公司Wonderful首席架構師本月有篇文章，描述四個月前禁止手動寫程式後的經驗。他對兩個工具的定位是，Codex是坐在房間後面戴耳機的工程師，默默讀完整個程式庫15分鐘才寫出第一行程式，Claude更有產品感，更擅長判斷什麼感覺對。他們把Codex用於低延遲系統、即時語音管線、性能敏感程式，Claude用於UI和前端。

從程式工具到代理平台

拉遠看，Codex六週衝刺指向一個更大的野心。Peter Steinberger加入是個人事訊號，他日常同時用五至十個代理，加入OpenAI後方向是個人代理，不是程式工具。OpenAI想用Codex當成AI代理戰略的入口。Codex Security則是另一個方向。當Codex從幫你寫程式走向審查安全性，定位就變了。

GPT-5.4加速轉變。身為OpenAI第一個原生computer use能力的通用模型，Codex不僅能寫程式，還能操作電腦、跨應用執行工作串流。配合成型中外掛程式／skills生態系統和企業級許可權，Codex輪廓越來越像AI原生開發平台。

Codex團隊在Every Podcast透露下個瓶頸，就是程式審查。模型產程式速度已經遠超人類檢查速度，驗證成品正確性成了最緊迫的問題。他們已在嘗試讓模型重現使用者操作路徑來「證明」修復有效，而不是讓工程師逐行檢查程式。

這些野心和Claude Code越來越清楚的發展方向有很多重疊，從Claude Code迅速搶走一些使用者和使用場景之後，Codex已迎頭趕上。回到Greg Brockman 2月6日發文，他的deadline是3月31日，現在距離deadline還有兩週，從這六週節奏看來，Codex的衝刺還沒有結束。

OpenAI把做模型的狠勁轉移到Codex，接下來和Claude Code短兵相接後，局面就會更精彩了。

（本文由品玩授權轉載；首圖來源：AI）