
Anthropic 首屆開發者大會「Code with Claude」22 日於美國舊金山舉行,正式發表全新 Claude 4 系列模型,包括 Claude Opus 4 和 Claude Sonnet 4,為編碼、高階推理及 AI 代理(AI agent)設下全新標準。
Claude Opus 4 和 Claude Sonnet 4 均為混合模型,提供近乎即時的回應、以及延伸思考 2 種模式。
Anthropic 稱 Claude Opus 4 是世界上最強大的編碼模型,在基準測試 SWE-bench(72.5%)與 Terminal-bench(43.2%)領先群雄,可對複雜、長時間運行的編碼任務和代理任務提供卓越表現。
Claude Opus 4 的記憶能力大幅領先其他模型,當開發者對 Claude 提供本機檔案存取權限時,Claude Opus 4 能夠建立並維持記憶檔案、儲存關鍵資訊,進而確認長期任務的處理意識、連貫性及代理任務效能。
Claude Sonnet 4 則是 Claude 3.7 Sonnet 重大升級,提供更優異的程式設計和推理能力,能夠精準遵循提示指令。隨著 Claude Sonnet 4 推出,GitHub 表示它在代理場景表現出色,將扮演驅動 GitHub Copilot 編碼代理的關鍵角色。
Anthropic 為 Claude 4 引進「思考摘要」,利用較小模型濃縮冗長的思考過程,這個機制只需要大約 5% 思考過程所花費的時間。
▲ Claude 4 在基準測試 SWE-bench Verified 處於領先地位。
▲ Claude 4 在編碼、推理、多模態功能和代理任務表現出色。
Anthropic 表示,Claude Pro / Max / Team / Enterprise 方案均能使用這 2 款模型和延伸思考功能,Claude Sonnet 4 甚至對免費用戶開放使用。
這 2 款模型已經上架 Anthropic API、Amazon Bedrock 及 Google Cloud Vertex AI,收費沿用先前 Claude Opus 和 Claude Sonnet 系列的價格:Claude Opus 4 每百萬個輸入/輸出詞元(token)收費 15 / 75 美元,Claude Sonnet 4 每百萬個輸入/輸出詞元則收費 3 / 15 美元,是前者的五分之一。
(圖片來源:Anthropic)