程式測試輾壓人類！ Claude Opus 4.5 深夜突襲，AI 編程進入「超人時代」

Gemini 3 Pro 才搶了兩週風頭，11 月 25 日 Claude Opus 4.5 正式發表，主打編程，還是那個熟悉的味道。Anthropic 官方宣稱 Opus 4.5 整體更聰明。遇到程式設計、搭 Agents、操控電腦這些「系統級任務」依然是全球數一數二的水準。日常的研究、做 PPT、處理表格這類工作，也都明顯變強了。

Opus 4.5已全面開放，可以透過應用程式、API，以及三大主流雲端平台使用，開發者只要在Claude API裡呼叫 claude-opus-4-5-20251101 。

此次更新，是整個工具鏈升級。開發者平台、Claude Code、Chrome外掛程式、Excel、桌面端改造，還有「長對話不卡頓」。從應用程式到API，再到雲端平台，這次是真的全線覆蓋。

大模型集體「上新季」，Opus 4.5強勢壓軸

從官方和測試者的回饋來看，Claude Opus 4.5對「模糊需求」的理解力得到了明顯提升，複雜Bug自行定位也更穩，不少提前試用的客戶覺得Opus 4.5是真的能「理解」他們想要啥。

在真實場景的軟體工程測試SWE-Bench Verified裡，它是第一個拿到80%以上分數的模型。

（Source：Anthropic，下同）

Opus 4.5的程式碼品質全面升級，在SWE-bench Multilingual涵蓋的八種程式語言裡，它在其中七種都拔得頭籌，表現相當亮眼。

而舉例而言，Anthropic團隊把Opus 4.5扔進了公司招募性能工程師時用的高難度測試題裡，結果在規定的兩小時內，Claude Opus 4.5的得分超過了所有人類候選人。

雖然程式測試只能衡量技術能力和時間壓力下的判斷力，那些多年經驗累積出來的直覺、溝通協作能力同樣重要，但並不在考察範圍內。

除了軟體工程，Claude Opus 4.5的整體能力也迎來了全面開花，在視覺、推理和數學方面都比前代模型強，並且在多個重要領域都達到業界領先水準：

更關鍵的是，模型能力甚至開始超越現有的一些評測標準。

在智慧體能力測驗τ²-bench裡就出現了這個場景：測試設定模型扮演航空公司客服，幫助一位焦慮的乘客。

依照規則，基礎經濟艙機票是不能改的，所以測試預期模型會拒絕乘客的請求。結果Opus 4.5想出了一個巧妙方案：先把艙位從基礎經濟艙升級到普通經濟艙，然後再改航班。

這辦法完全符合航空公司政策，卻不在測驗的預期答案範圍內。從技術角度來說，這算是測試失敗了，但這種創意解決問題的方式，恰恰展現了Opus 4.5的獨特之處。

當然了，在其他場景下，這種「尊漏洞」的行為可能就沒那麼受歡迎了。如何防止模型以非預期方式偏離目標，這是Anthropic安全測試重點關注的方向。

Claude無所不在，桌面、瀏覽器、Excel全接入

隨著Opus 4.5的推出，Claude Code獲得了兩個重大更新。

計劃模式（Plan Mode）現在能產生更精確的執行計畫了，Claude會在操作前主動提澄清性問題，然後產生一個用戶可編輯的plan.md文件，再根據這計畫執行任務。

此外，Claude Code現在已經登陸桌面應用程式了。你可以同時跑多個本機或遠端會話，例如一個智慧體負責修程式碼錯誤，另一個負責在GitHub上檢索資料，第三個就更新專案文件。

對於Claude應用程式用戶來說，長對話不會再被打斷了。Claude會在需要的時候自動總結早期上下文，讓對話持續下去。

Anthropic研究產品管理負責人Dianne Na Penn在受訪時表示：

「我們在Opus 4.5的訓練過程中提升了對長上下文的整體處理能力，但光有更長的上下文窗口是不夠的。知道哪些資訊值得記住，同樣非常關鍵。」

這些改進也實現了Claude用戶長期呼籲的一項功能：「無盡對話」，能夠讓付費用戶在對話超過上下文視窗限制時也不會中斷，模型會自動壓縮上下文記憶，而不用提醒用戶。

Claude for Chrome也已經向所有Max用戶開放了，可以讓Claude直接在瀏覽器多個分頁之間執行任務。

Claude for Excel的Beta測試範圍也已經擴大到Max、Team和Enterprise使用者。

對於能使用Opus 4.5的Claude和Claude Code用戶，Anthropic已經取消了和Opus相關的使用上限。

對於Max用戶和Team Premium用戶，Anthropic也提高了整體使用限額，用戶可使用的Opus token數量與先前使用Sonnet時大致相同。隨著未來更強模型的出現，配額也會根據情況相應更新。

讓模型「更聰明也更省」，Opus 4.5迎來底層大升級

隨著模型變得更聰明，它們能用更少的步驟解決問題：減少反覆試誤、降低冗餘推理、縮短思考過程。

Claude Opus 4.5和前代模型比，在實現相同甚至更優結果的情況下，用的tokens數量明顯少了。

當然了，不同任務需要不同的平衡。有時開發者希望模型能持續深入思考，有時需要更快速、更靈活的反應。所以，API裡新加了一個叫effort的參數，讓你可以依照需求選：優先省時間和成本，或最大化模型能力，任君選擇。

當設定為中等effort等級時，Opus 4.5在SWE-bench Verified測試中和Sonnet 4.5的最佳成績持平，但輸出tokens數減少了76%。而在最高effort等級下，Opus 4.5的表現比Sonnet 4.5高出4.3個百分點，同時也減少了48%的輸出量。

憑藉著effort控制、上下文壓縮（context compaction）和高階工具呼叫能力，Claude Opus 4.5能跑得更久、完成更多任務，而且需要的人工介入更少了。

此外，真正的AI智慧體需要在數百上千種工具之間無縫協作。

想像一個IDE助理整合了Git、檔案管理、測試框架和部署流程，或是營運智慧體同時連著Slack、GitHub、Google Drive、Jira和幾十個MCP伺服器。

問題在於，傳統方式會把所有工具定義一次塞進上下文。以連接五個伺服器的系統來說，GitHub需要26K tokens，Slack需要21K tokens，Sentry、Grafana、Splunk加起來又是8K tokens。對話還沒開始就已經占了55K tokens，若是再加上Jira，輕鬆突破100K tokens。更麻煩的是，當工具名字相似時，模型容易選錯工具或傳錯參數。

Anthropic推出了三項新功能來解決這些問題：