OpenAI 總裁 Greg Brockman 2 月 6 日 X 向公司工程團隊喊話,內容是 deadline:到 3 月 31 日,任何技術任務,工程師第一工具應是 AI 代理,而不是編輯器或終端。這是 OpenAI 給自己的動員令。
Software development is undergoing a renaissance in front of our eyes.
If you haven’t used the tools recently, you likely are underestimating what you’re missing. Since December, there’s been a step function improvement in what tools like Codex can do. Some great engineers at…
— Greg Brockman (@gdb) February 6, 2026
如果只看這句話,可能會覺得又是矽谷的願景宣言。但接下來六週發生的事顯示,Brockman不只是喊喊口號,OpenAI程式代理平台Codex,正在經歷罕見產品衝刺,密度之高,節奏之快,甚至讓長期關注AI程式工具的開發者重新審視自己的工具鏈,同時Codex在程式設計師社群的熱度和口碑也明顯上升。
而一切都是為了「狙擊」Anthropic如日中天的Claude Code。
六週瘋狂更新
拉一下時間軸就能感受到節奏多快。
- 2月2日,Codex桌面App發表(macOS),OpenAI同時宣布向ChatGPT免費和Go用戶開放Codex,所有付費用戶的速率限制翻倍。
- 2月5日,GPT-5.3-Codex發表,OpenAI稱之為「第一個幫助創造了自身的模型」。同一天,Anthropic發行Claude Opus 4.6。
- 2月12日,Codex-Spark發布,與AI推理硬體公司Cerebras合作,推理速度超過每秒1,000 tokens。OpenAI的說法是,「當模型能力越來越強,交互速度就成了明確的瓶頸。」
- 2月14日,OpenClaw創辦人Peter Steinberger宣布加入OpenAI。根據Pragmatic Engineer報導,Steinberger用Codex寫了OpenClaw的全部程式碼,偏好長時間運行的agentic loop。Sam Altman在X上稱他為「天才」,說他將「推動下一代personal agents」。
- 3月4日,Codex桌面App登陸Windows。
- 3月5日,GPT-5.4發布,是OpenAI第一個同時具備reasoning、coding和原生computer use能力的通用模型,在Codex和API中支援100萬token上下文。
- 3月6日,Codex Security進入research preview。這是OpenAI推出的應用程式安全代理,前身為內測階段的Aardvark,能夠分析程式碼倉庫、建置專案級威脅模型、在沙盒中驗證漏洞並提出修復建議。在過去30天的beta測試中,它掃描了超過120萬次commits,發現792個critical等級漏洞和超過10,000個高風險問題,涵蓋OpenSSH、GnuTLS、Chromium等重量級開源專案。誤報率降低超過50%,噪音降低84%。

使用數字也同步攀升。Sam Altman在X確認,Codex的週活躍使用者年初迄今增長超過三倍;Codex團隊負責人Thibault Sottiaux(Tibo)告訴Pragmatic Engineer的Gergely Orosz,1月後使用量增長五倍,週活躍開發者超過百萬,Tibo還在Podcast提到,超級盃週日播出的Codex廣告更幾乎馬上湧入巨大流量。
六週,七次大動作,成了OpenAI產品最激烈衝刺。
再看供給側變化。GPT-5系列模型代理力過去幾個月品質大躍進,從上下文視窗、工具調用到長時間自動執行,模型功能已可支撐寫程式代理這產品的臨界點。需求側訊號同樣強烈,SemiAnalysis報導,Anthropic Claude Code已有25億美元年化收入,占企業收入過半。Claude Code用真金白銀證明程式代理可成為AI公司核心收入引擎。對估值據報達數千億美元的OpenAI來說,當然不可能放棄這賽道。

▲ SemiAnalysis預測AnthropicARR增速一度超過OpenAI。
兩家公司貼身肉搏時間點也值得注意。GPT-5.3-Codex和Claude Opus 4.6在2月5日同天發表,Codex Security和Claude Code Security幾乎同期推出,這本身就是訊號,兩家公司都把程式代理平台視為最大戰場。
開發者開始從Claude Code單一模式變成混合模式
Anthropic Claude Code沒有對手有段時間了,使用者已逐漸習慣依賴它。OpenAI顯然不想讓Anthropic一帆風順下去,Codex狂衝猛進後,開發者社群開始有了變化。一個月來Reddit和Hacker News關於Codex和Claude Code的討論,出現率最高主題不是更好或取代,而是「stacking」(堆疊)。也就是說,越來越多開發者不是只選一個AI用,而是都用。
Calvin French-Owen是典型案例,他是Segment聯合創辦人,曾參與OpenAI Codex Web產品發表,同時也是Claude Code深度使用者。2月他於Podcast說,選擇工具的核心標準是「我有多少時間,以及我想讓它自動程度多高」。
他的日常流程是用Claude Code規劃、編排終端和管理git,然後換到Codex寫程式。他說Opus跨上下文視窗工作效率更高,會同時啟動多個子代理併行探索程式庫,而Codex長時間自動寫程式更穩定。
Reddit也出現不少分工模式細節。有開發者詳述五段式workflow,先讓Claude Code做計畫,再讓Codex review做計畫,然後Claude實行,最後交給Codex做code review和QA反覆運算。還有人直接把Claude Code和Codex串成一個CLI bridge,因手動在兩者之間複製貼上太累了。
一篇社群文分析總結500多條Reddit評論,Claude Code一組小樣本盲測勝率達67%,品質更高,但Codex 20美元套餐能寫一整天程式,Claude Code同價位十幾個提示詞就用完了。「Claude Code品質更高但用不夠,Codex稍弱但能寫整天」,這是3月開發者社群最真實的共識。
We’re sharing a new method for scoring models on agentic coding tasks.
Here’s how models in Cursor compare on intelligence and efficiency: pic.twitter.com/VItnifMh55
— Cursor (@cursor_ai) March 12, 2026
▲ Cursor官方benchmark,GPT系列整體領先其他模型。
開發者社群還有個比喻描述兩者氣質差異,Claude像美國人,適合做充滿創造力的探索和腦力激盪,Codex像德國人,代表極致的效率和專注力。「Codex就像咬住肉不放的狗,非常固執,會一直嘗試直到解決問題。」
當然也有反面聲音。Hacker News有開發者批Codex「每項都比Claude Code差」,尤其是code review會製造看似合理但不存在的問題,他最後只將Codex用在檢查Claude的結果。但大方向已很明確,社群討論已從哪個更好就用哪個,變成兩個都用,各司其職。

不再比benchmark,而是誰更實用
只看模型benchmark,不太容易理解Codex為什麼崛起。SWE-Bench這類程式評測,Claude Opus 4.6仍然領先,真讓Codex拉開差異的地方在別處,OpenAI正在專為它構建整套工程系統。
Orosz 2月發表Codex團隊深度報導,最引人注目的是Codex超過90%程式是Codex自己寫的。Anthropic也有類似說法,Claude Code建立者Boris Cherny告訴Orosz,Claude Code數字大致相當。當然90%仍需打個折,成熟專案的樣本程式、測試範例、常規重構佔大量行數,核心架構決策仍然是人寫的。但兩家AI實驗室都在用自己的程式工具寫程式工具,這本身就說明程式AI工具已深入日常工作流程。

▲ Codex基本工作原理。
Codex團隊的工程組織層面走得更遠。Orosz報導描述新工作方式,Codex團隊的典型工程師同時跑四至八個代理,分別處理feature開發、程式檢查、安全審查、程式庫理解、bug修復等。工程師角色已從寫程式變成管理AI代理。
技術選型,Codex CLI選擇Rust(Claude Code用TypeScript)。團隊負責人Tibo理由不僅是性能和正確性,還有工程文化,選擇Rust是為了幫團隊設定高工程標準,同時減少依賴npm生態,他們甚至招募Rust終端UI庫Ratatui的維護者全職加入團隊。
更值得關注的是分層程式審查機制。Codex團隊訓練特製程式檢查模型,據Tibo說約90%評論能指出有效問題。審查分兩層,非關鍵程式在AI複查後可直接合併,核心代理程式和開源元件仍然要求強制人工審查,這套機制意義在於,審查也開始分層了。
還有兩個細節能說明Codex從單工具走向系統。Codex可執行自己的完整測試套件測試自己;團隊還設置夜間巡檢,讓Codex自動掃描程式庫並產生待審修復建議,工程師每天早上進公司時就有一批修復等著他複查。
AI開發公司Wonderful首席架構師本月有篇文章,描述四個月前禁止手動寫程式後的經驗。他對兩個工具的定位是,Codex是坐在房間後面戴耳機的工程師,默默讀完整個程式庫15分鐘才寫出第一行程式,Claude更有產品感,更擅長判斷什麼感覺對。他們把Codex用於低延遲系統、即時語音管線、性能敏感程式,Claude用於UI和前端。
從程式工具到代理平台
拉遠看,Codex六週衝刺指向一個更大的野心。Peter Steinberger加入是個人事訊號,他日常同時用五至十個代理,加入OpenAI後方向是個人代理,不是程式工具。OpenAI想用Codex當成AI代理戰略的入口。Codex Security則是另一個方向。當Codex從幫你寫程式走向審查安全性,定位就變了。
GPT-5.4加速轉變。身為OpenAI第一個原生computer use能力的通用模型,Codex不僅能寫程式,還能操作電腦、跨應用執行工作串流。配合成型中外掛程式/skills生態系統和企業級許可權,Codex輪廓越來越像AI原生開發平台。
Codex團隊在Every Podcast透露下個瓶頸,就是程式審查。模型產程式速度已經遠超人類檢查速度,驗證成品正確性成了最緊迫的問題。他們已在嘗試讓模型重現使用者操作路徑來「證明」修復有效,而不是讓工程師逐行檢查程式。
這些野心和Claude Code越來越清楚的發展方向有很多重疊,從Claude Code迅速搶走一些使用者和使用場景之後,Codex已迎頭趕上。回到Greg Brockman 2月6日發文,他的deadline是3月31日,現在距離deadline還有兩週,從這六週節奏看來,Codex的衝刺還沒有結束。
OpenAI把做模型的狠勁轉移到Codex,接下來和Claude Code短兵相接後,局面就會更精彩了。
(本文由 品玩 授權轉載;首圖來源:AI)






