全球首個混合推理模型發表,Claude 能「思考」了,實測發現這些細節

作者 | 發布日期 2025 年 02 月 26 日 8:00 | 分類 AI 人工智慧 , 軟體、系統 line share Linkedin share follow us in feedly line share
全球首個混合推理模型發表,Claude 能「思考」了,實測發現這些細節

Claude 3.7 Sonnet 正式發布,做為 Claude 有史以來最聰明的模型,它採用混合推理方式,既能快速產生回應,也能進行深入的逐步推理。一個模型,兩種思考模式。

此外, Anthropic 也發表了一款智慧程式設計工具「Claude Code」。

官方表示,Claude 3.7 Sonnet和Claude Code標誌著AI邁向真正增強人類能力的重要一步。它們不僅能深入推理、獨立執行任務,還能高效協作,讓AI在現實世界中發揮更大價值。

  • Claude 3.7 Sonnet:全球首款雙模式混合推理模型,標準模式快速響應,擴展思考模式進行深度自我反思,在數學、物理和編程等複雜任務上表現卓越,注重實用導向,不必要拒絕減少45%,強化代碼協作能力。
  • Claude Code:直接在終端機理解並操作代碼庫,能一次完成需45分鐘以上的人工程式設計任務,專長於測試驅動開發、複雜調試和大規模代碼重構,全面支援代碼編輯、測試執行等核心開發流程。

全球首款混合推理模型正式發表,你的Claude會思考了

新發布的Claude 3.7 Sonnet不僅引入了詳細的逐步推理,也公開了「思考」過程。感謝DeepSeek的內卷,推動了業界透明度的提升。

就像人類用同一個大腦既能快速反應,又能深入思考一樣,Anthropic同樣認為推理能力不應依賴單獨的模型。最好是一個模型搞定所有場景。

使用者可以自由選擇是讓模型快速作答,還是讓其進行更長時間的深度思考。

在標準模式下,它是Claude 3.5 Sonnet的升級版;在擴展思考(Extended Thinking)模式下,它會在回答前進行自我反思,大幅提升在數學、物理、指令理解和編程等複雜任務上的表現。

(Source:Anthropic,下同)

從基準測試結果來看,Claude 3.7 Sonnet(擴展思維版)適用於強邏輯推理和數學任務,而Grok 3 Beta和DeepSeek R1則在特定任務(推理、數學競賽)上表現更佳。

DeepSeek R1在數學解題能力(97.3%)方面最強,同時在其他任務上也有不錯的表現。

在推理模型的最佳化過程中,Anthropic減少了對數學和電腦科學競賽問題的側重,更專注於滿足企業對LLM的實際應用需求。

在專門評估AI解決真實軟體問題能力的SWE-bench Verified基準測試中,Claude 3.7 Sonnet達到了領先水準。同時,模型在TAU-bench測試中也表現突出,展現了其在與使用者及工具互動方面的優異能力。

值得一提的是,Claude 3.7 Sonnet在Anthropic內部的Pokémon遊戲測試中超越了所有前代模型,展現了更強的決策與規劃能力。

(Source:Anthropic

該模型現已適用於所有Claude訂閱計畫,包括免費版、專業版、團隊版和企業版,同時也可透過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI存取。

值得注意的是,除免費版外,所有平台均支援擴展思考模式(Extended Thinking Mode)。

無論使用哪種模式,定價與前代模型保持一致。輸入100萬個token收費美元,輸出100萬個token(包括思考過程中使用的token)收費15美元。

在過去,Claude出色的程式設計能力讓其成為許多開發者的首選模型,現在,Claude 3.7 Sonnet也進一步放大了其優勢。

Cursor、Cognition、Vercel、Replit和Canva等公司均確認該模型在處理複雜代碼庫、進階工具使用、代碼修改規劃和全端更新處理等方面表現出色。

為優化使用者體驗,GitHub整合功能已向所有訂閱計畫開放,開發者可以直接將代碼庫連接到Claude,實現更有效率的協作。無論是修復Bug、開發新功能或完善文檔,Claude 3.7 Sonnet都能為個人專案和企業級GitHub代碼庫提供更好的支援。

在安全性方面,透過與外部專家合作,相較於前代模型,Claude 3.7 Sonnet能更準確地區分惡意請求和正常請求,不必要的拒絕減少了45%,能夠提供更流暢的互動體驗。

▲ 截取自Claude 3.7 Sonnet系統卡。

程式碼寫到一半想放棄?把複雜問題甩給Claude Code

Anthropic還推出了一款用於智慧編程工具──Claude Code,目前做為限量研究預覽版開放,開發者可以直接在裝置中將大量工程任務交給Claude處理。

新推出的Claude Code能夠搜尋並閱讀程式碼、編輯檔案、編寫並執行測試、提交和推送程式碼到GitHub以及使用命令列工具等。

根據Anthropic官方介紹,在早期測試中,Claude Code能一次完成通常需要45分鐘以上的人工任務,大幅減少開發時間和工作量,特別是在測試驅動開發(TDD)、調試複雜問題和大規模重構方面表現突出。

做為一款裝置運作的智慧程式設計助手,Claude Code能夠直接理解開發者的代碼庫,並透過自然語言命令幫助使用者更有效率地編碼。它可以無縫整合到開發環境中,無需額外的伺服器或複雜的配置,大大簡化了工作流程。

其核心功能包括編輯檔案、修復Bug、回答關於程式碼架構和邏輯的問題、執行測試、修復測試錯誤、進行程式碼格式檢查,以及搜尋Git歷史紀錄、解決合併衝突、建立提交和拉取請求等。

Anthropic表示,在接下來的幾週內,他們計劃持續優化Claude Code,重點改進包括提升工具呼叫的穩定性、支援長時間運行的命令、改進應用程式內的渲染效果,以及增強Claude對自身能力的理解。

這次發布預覽研究版本也是希望深入了解開發者如何使用Claude進行編程,為進一步優化未來的模型版本提供參考。有興趣的開發者可在官方網站查看相關內容

AI 發展速度太快,連取名都跟不上了?

X網友倒是用上了,不過注意點有點偏差,一年前寫的越獄提示詞還能用上。

問strawberry有多少個r,Claude Sonnet 3.7雖然答錯了,但官方似乎特意為這個問題埋了一個彩蛋。不得不說,官方是懂怎麼玩梗的。

知名部落客@rowancheung提前用上了Claude 3.7 Sonnet,並盛讚該模型為世界上最好的編碼AI模型,在接收到一個簡單的指令後,就生成了一個類似Minecraft的遊戲,並且可即刻運行。

耗費的推理Token越多,Claude 3.7 Sonnet繪製的「彩虹獨角獸」效果越好。

筆者也簡單上手體驗了一下Claude 3.7 Sonnet。

「燒一根不均勻的繩要用一個小時,如何用它來判斷半個小時?燒一根不均勻的繩,從頭燒到尾總共需要一個小時。現在有若干條材質相同的繩子,問如何用燒繩的方法來計時一個小時十五分鐘呢?」

一道簡單的推理題,差點把Claude 3.7 Sonnet的CPU燒乾了。

相信你已經注意到,與DeepSeek R1所展示的思考過程相比,Claude 3.7 Sonnet公開的思考過程比較客觀、缺乏個人化表達,這是有意為之的設計。

Anthropic沒有對模型的思考過程進行標準角色訓練,而是希望給予Claude最大自由度進行自主思考,就像人類思維一樣,這可能包含不完全正確或尚未成熟的想法。

並且,Anthropic認為模型所展示的思考過程不一定真實反映了其內部決策邏輯,因此,Anthropic正在權衡未來版本是否繼續公開Claude的思維過程,並評估其利弊,未來將基於用戶反饋和研究進展進一步調整。

有趣的是,我們之前提到隨著各家新模型的相繼發表,各類版本號和命名規則也是讓人眼花撩亂。

去年當OpenAI CEO Sam Altman被問到公司產品的命名策略時,他也坦言相當頭痛。

Anthropic CEO Amodei也曾表示,雖然Claude的命名方式在早期看起來不錯,但隨著模型的快速迭代和更新,沿用的命名體系同樣變得捉襟見肘。他指出,目前沒有任何AI公司真正「搞定命名」這個問題,大家都在努力尋找更簡單、更清晰的命名方式。這或許也是AI巨頭們少有達成的共識。

Anthropic首席產品長Mike Krieger也在X平台公布了Claude 3.7 Sonnet的幕後命名花絮。

 

(本文由 愛范兒 授權轉載;首圖來源:Anthropic

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》