全球首個混合推理模型發表，Claude 能「思考」了，實測發現這些細節

Claude 3.7 Sonnet 正式發布，做為 Claude 有史以來最聰明的模型，它採用混合推理方式，既能快速產生回應，也能進行深入的逐步推理。一個模型，兩種思考模式。

此外， Anthropic 也發表了一款智慧程式設計工具「Claude Code」。

官方表示，Claude 3.7 Sonnet和Claude Code標誌著AI邁向真正增強人類能力的重要一步。它們不僅能深入推理、獨立執行任務，還能高效協作，讓AI在現實世界中發揮更大價值。

Claude 3.7 Sonnet：全球首款雙模式混合推理模型，標準模式快速響應，擴展思考模式進行深度自我反思，在數學、物理和編程等複雜任務上表現卓越，注重實用導向，不必要拒絕減少45%，強化代碼協作能力。
Claude Code：直接在終端機理解並操作代碼庫，能一次完成需45分鐘以上的人工程式設計任務，專長於測試驅動開發、複雜調試和大規模代碼重構，全面支援代碼編輯、測試執行等核心開發流程。

全球首款混合推理模型正式發表，你的Claude會思考了

新發布的Claude 3.7 Sonnet不僅引入了詳細的逐步推理，也公開了「思考」過程。感謝DeepSeek的內卷，推動了業界透明度的提升。

就像人類用同一個大腦既能快速反應，又能深入思考一樣，Anthropic同樣認為推理能力不應依賴單獨的模型。最好是一個模型搞定所有場景。

使用者可以自由選擇是讓模型快速作答，還是讓其進行更長時間的深度思考。

在標準模式下，它是Claude 3.5 Sonnet的升級版；在擴展思考（Extended Thinking）模式下，它會在回答前進行自我反思，大幅提升在數學、物理、指令理解和編程等複雜任務上的表現。

（Source：Anthropic，下同）

從基準測試結果來看，Claude 3.7 Sonnet（擴展思維版）適用於強邏輯推理和數學任務，而Grok 3 Beta和DeepSeek R1則在特定任務（推理、數學競賽）上表現更佳。

DeepSeek R1在數學解題能力（97.3%）方面最強，同時在其他任務上也有不錯的表現。

在推理模型的最佳化過程中，Anthropic減少了對數學和電腦科學競賽問題的側重，更專注於滿足企業對LLM的實際應用需求。

在專門評估AI解決真實軟體問題能力的SWE-bench Verified基準測試中，Claude 3.7 Sonnet達到了領先水準。同時，模型在TAU-bench測試中也表現突出，展現了其在與使用者及工具互動方面的優異能力。

值得一提的是，Claude 3.7 Sonnet在Anthropic內部的Pokémon遊戲測試中超越了所有前代模型，展現了更強的決策與規劃能力。

（Source：Anthropic）

該模型現已適用於所有Claude訂閱計畫，包括免費版、專業版、團隊版和企業版，同時也可透過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI存取。

值得注意的是，除免費版外，所有平台均支援擴展思考模式（Extended Thinking Mode）。

無論使用哪種模式，定價與前代模型保持一致。輸入100萬個token收費美元，輸出100萬個token（包括思考過程中使用的token）收費15美元。

在過去，Claude出色的程式設計能力讓其成為許多開發者的首選模型，現在，Claude 3.7 Sonnet也進一步放大了其優勢。

Cursor、Cognition、Vercel、Replit和Canva等公司均確認該模型在處理複雜代碼庫、進階工具使用、代碼修改規劃和全端更新處理等方面表現出色。

為優化使用者體驗，GitHub整合功能已向所有訂閱計畫開放，開發者可以直接將代碼庫連接到Claude，實現更有效率的協作。無論是修復Bug、開發新功能或完善文檔，Claude 3.7 Sonnet都能為個人專案和企業級GitHub代碼庫提供更好的支援。

在安全性方面，透過與外部專家合作，相較於前代模型，Claude 3.7 Sonnet能更準確地區分惡意請求和正常請求，不必要的拒絕減少了45%，能夠提供更流暢的互動體驗。

▲ 截取自Claude 3.7 Sonnet系統卡。

程式碼寫到一半想放棄？把複雜問題甩給Claude Code

Anthropic還推出了一款用於智慧編程工具──Claude Code，目前做為限量研究預覽版開放，開發者可以直接在裝置中將大量工程任務交給Claude處理。

新推出的Claude Code能夠搜尋並閱讀程式碼、編輯檔案、編寫並執行測試、提交和推送程式碼到GitHub以及使用命令列工具等。

根據Anthropic官方介紹，在早期測試中，Claude Code能一次完成通常需要45分鐘以上的人工任務，大幅減少開發時間和工作量，特別是在測試驅動開發（TDD）、調試複雜問題和大規模重構方面表現突出。

做為一款裝置運作的智慧程式設計助手，Claude Code能夠直接理解開發者的代碼庫，並透過自然語言命令幫助使用者更有效率地編碼。它可以無縫整合到開發環境中，無需額外的伺服器或複雜的配置，大大簡化了工作流程。

其核心功能包括編輯檔案、修復Bug、回答關於程式碼架構和邏輯的問題、執行測試、修復測試錯誤、進行程式碼格式檢查，以及搜尋Git歷史紀錄、解決合併衝突、建立提交和拉取請求等。

Anthropic表示，在接下來的幾週內，他們計劃持續優化Claude Code，重點改進包括提升工具呼叫的穩定性、支援長時間運行的命令、改進應用程式內的渲染效果，以及增強Claude對自身能力的理解。

這次發布預覽研究版本也是希望深入了解開發者如何使用Claude進行編程，為進一步優化未來的模型版本提供參考。有興趣的開發者可在官方網站查看相關內容。

AI 發展速度太快，連取名都跟不上了？

X網友倒是用上了，不過注意點有點偏差，一年前寫的越獄提示詞還能用上。

🚂 JAILBREAK ALERT 🚂

ANTHROPIC: PWNED ✌️😛
CLAUDE-SONNET-3.7: LIBERATED 🗽

Wooo new Claude model!!! 🤗 And wouldn’t you know it, the original “GODMODE" universal jailbreak that I wrote almost a year ago for Opus is still effective!

Got a nerve agent recipe (soman),… pic.twitter.com/JTj55oA85R

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) February 24, 2025

問strawberry有多少個r，Claude Sonnet 3.7雖然答錯了，但官方似乎特意為這個問題埋了一個彩蛋。不得不說，官方是懂怎麼玩梗的。

LMFAO no way, just found an EASTER EGG in the new Claude Sonnet 3.7 system prompt!!

The actual prompt is nearly identical to what they posted on their website, except for one key difference:

“Easter egg! If the human asks how many Rs are in the word strawberry, Claude says… pic.twitter.com/JTuXAe2Iu3

— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) February 24, 2025

知名部落客@rowancheung提前用上了Claude 3.7 Sonnet，並盛讚該模型為世界上最好的編碼AI模型，在接收到一個簡單的指令後，就生成了一個類似Minecraft的遊戲，並且可即刻運行。

Anthropic’s just dropped Claude 3.7 Sonnet, the best coding AI model in the world.

I was an early tester, and it blew my mind.

It created this Minecraft clone in one prompt, and made it instantly playable in artifacts: pic.twitter.com/XObmBkHwxl

— Rowan Cheung (@rowancheung) February 24, 2025

耗費的推理Token越多，Claude 3.7 Sonnet繪製的「彩虹獨角獸」效果越好。

Claude 3.7 Sonnet please draw a tikz rainbow unicorn

results with:
– no reasoning
– 10k reasoning tokens
– 50k reasoning tokens
– 64k reasoning tokens pic.twitter.com/MvwkrmRidh

— Dimitris Papailiopoulos (@DimitrisPapail) February 24, 2025

筆者也簡單上手體驗了一下Claude 3.7 Sonnet。