面對 Google Gemini 3、OpenAI GPT-5.1 等先進模型來勢洶洶,Anthropic 加緊推出模型升級。Claude 4 系列之中,最強大、最智慧、同時成本相對較高的 Opus 版本提供 Claude Opus 4.5 新模型,Anthropic 稱是目前在編碼、代理(Agent)、電腦使用方面最強大的模型,日常工作如深度研究、處理簡報和試算表等任務也有顯著提升。
Anthropic 25 日新發表 Claude Opus 4.5,使 Opus、Sonnet、Haiku 三種版本都來到 4.5 代。
Claude Opus 4.5 在一系列基準測試達到最佳表現,包括程式設計基準(SWE-bench 和 Terminal-bench)、工具使用(𝜏²-Bench 與 MCP Atlas)、以及一般問題解決能力(ARC-AGI-2、GPQA Diamond)。值得關注的是,Claude Opus 4.5 是第一款在 SWE-bench Verified 這項重要的程式設計基準測試取得超過 80% 的模型。

▲ Claude Opus 4.5 在不同基準測試的結果。

▲ Claude Opus 4.5 在 SWE-bench Verified 基準測試取得超過 80%。
Anthropic 強調 Opus 版本在電腦使用和試算表方面的處理能力,同步推出多項產品,展示新模型在不同情境中的表現。隨著 Claude Opus 4.5 推出,Anthropic 開放支援 Claude for Chrome、Claude for Excel 產品。Chrome 擴充功能開放給所有 Claude Max 訂閱用戶使用,而在 Claude for Excel 的功能將提供 Claude Max / Team / Enterprise 的用戶。
Claude Opus 4.5 在處理長篇脈絡針對記憶體加以改進,這需要在模型記憶體管理方式上進行重大調整。
「我們確實有在 Claude Opus 4.5 的訓練中改進一般長篇脈絡的處理品質,但只有延長上下文窗口本身並不夠,知道哪些細節值得記住,對於補足更長的上下文窗口極為重要」,Anthropic 研究產品管理主管 Dianne Na Penn 告訴外媒 TechCrunch。
這樣的改變也讓付費訂閱 Claude 用戶期待已久的「無限對話」(endless chat)成真,即使達模型的長篇脈絡限制,對話也不會被迫中斷,模型會壓縮脈絡記憶,而且不會特別通知用戶。
許多模型升級是針對代理式 AI(Agentic AI)使用案例加以設計,特別是讓 Opus 版本作為主要代理,指揮一群由 Haiku 版本驅動的代理工具。在這類任務中,模型必須擁有強大的記憶能力,這正是記憶體改進所展現的價值。
「這就是為什麼像記憶體這樣的基本能力變得非常重要,因為 Claude 必須能夠探索程式碼庫和大型文件,同時也能知道什麼時候該回溯與重新檢查」,Dianne Na Penn 補充說。
Claude Opus 4.5 在 Anthropic 的應用程式、API 以及 3 大雲端平台(AWS、Google Cloud、Microsoft Azure)上線。對開發者而言,透過 Claude API 使用名稱 claude-opus-4-5-20251101 的 API 即可,Claude Opus 4.5 價格是每百萬個輸入/輸出詞元(token)收費 5 / 25 美元。
- Anthropic releases Opus 4.5 with new Chrome and Excel integrations
- Anthropic’s Claude Opus 4.5 is here: Cheaper AI, infinite chats, and coding skills that beat humans
- Anthropic reduces model misbehavior by endorsing cheating
(圖片來源:Anthropic)






