無法勝任複雜工程任務？AMD 主管揭實測數據，指 Claude Code 思考力下降

如果你發現 Claude Code 的表現下滑，已讓你不再信任它能夠處理複雜工程任務，其實有不少人也有同樣感受。

一名 GitHub 使用者在上週五建立 Issue，抱怨從今年 2 月某個時間點開始，Claude Code 表現明顯變差。從這名使用者的 GitHub 個人資料以及相關 LinkedIn 貼文顯示，她正是 AMD AI 團隊主管 Stella Laurenzo。

「Claude 無法用於執行複雜的工程任務」，Stella Laurenzo 表示，並指出她的團隊分析數個月來高度一致且高度複雜的工作環境，進而得出結論，「我團隊中的每一位資深工程師都回報類似經驗」。

Stella Laurenzo 及其團隊分析 6,852 個 Claude Code 工作階段，涵蓋 234,760 次工具呼叫和 17,871 個思考區塊。數據顯示，AI 用於偵測推卸責任、過早停止思考、以及頻繁請求許可等被視為「懶惰」行為的次數暴增，從 3 月 8 日之前的 0 次，增加至上個月底平均每日 10 次。

此外，Claude 在修改程式碼前閱讀原始碼的次數也大幅下降，從平均 6.6 次降至 3 月底僅平均 2 次。同一期間，Claude 更頻繁地直接重寫整個檔案，而非進行細部修改。

Stella Laurenzo 認為，這些現象突顯 Claude Code 思考深度正在下降，並且與 3 月初在 Claude Code 2.1.69 版本部署的 thinking content redaction 功能吻合。這項功能預設從 API 回應中移除思考內容，讓使用者無法了解 Claude 在處理請求時的內部推理過程。Stella Laurenzo 所掌握的證據顯示，這項功能推出後，Claude 整體思考能力下降。

「當思考變得膚淺，模型會傾向採取成本最低的行動：不經閱讀直接修改、未完成就停止、對錯誤推卸責任、選擇最簡單而非最正確的解法」，Stella Laurenzo 表示。

值得注意的是，這次似乎與今年 2 月 Claude 發生另一問題有所不同。當時 Claude Code 2.1.20 版本曾因思考過程截斷說明，引發使用者批評 AI 被「降智」。當時使用者只能看到簡短提示如讀取多少檔案，除此之外幾乎沒有其他細節。可以想見，這次的新問題同樣難以讓使用者滿意。

Anthropic 近期也因 token 用量異常暴增，部分使用者因此超出用量上限、無法繼續使用服務，加上 Claude Code 原始碼外流的事件，對公司聲譽如同火上加油。

Stella Laurenzo 則希望 Anthropic 能公開說明是否限制或削減思考 token，導致 Claude Code 輸出品質下降。至少她希望系統能顯示每次請求使用的思考 token 數量，讓使用者能注意自己提出請求是否獲得足夠推理深度。

Stella Laurenzo 還建議 Anthropic 增設最高思考層級，提供執行複雜工作流程的工程師使用。「目前訂閱模式沒有區分每次回應需要 200 個思考 token 的用戶，以及需要 20,000 個思考 token 的用戶。」她表示，「對於執行複雜工程流程的用戶而說，願意支付更高費用以換取穩定且深入的思考能力」。

Stella Laurenzo 指出，她的團隊改用其他供應商，且產品品質更好，仍希望 Anthropic 能修正產品，因此提出問題與呼籲。她未透露新工具細節，僅表示受限於保密協議。