與川普政府進行了數週協商,Anthropic 終於能讓 Claude Fable 5 模型重新上線,計劃自 7 月 1 日起,為世界各地 Claude 使用者恢復存取,如台灣使用者現在已能在 Claude 使用這款模型。
「我們已收到通知,商務部解除對 Claude Fable 5 和 Claude Mythos 5 所實施的出口管制,我們將於明日開始恢復存取」,Anthropic 透過昨日 X 貼文表示。
Claude Fable 5 將從 7 月 1 日起,在 Claude 平台、Claude.ai、Claude Code、Claude Cowork 對全球使用者開放使用。針對 Claude Pro、Claude Max、Claude Team 及部分 Claude Enterprise 訂閱方案,7 月 7 日前 Claude Fable 5 納入每週使用上限最多占 50% 額度,之後將改為透過使用點數。Anthropic 也將盡快恢復對 AWS、Google Cloud、Microsoft Foundry 上的存取,但目前未定出確切時程。

▲ Claude Fable 5 重新開放使用。(Source:科技新報截圖)
Anthropic 也在官方部落格發文,詳述這次事件來龍去脈、調整後的防護機制、業界具共識的 AI 越獄評估框架,以及 Anthropic 計劃與政府共享資訊的新方式、針對後續模型推出前的測試。
事件來龍去脈
Anthropic 在 6 月 9 日釋出 Claude Fable 5 和 Claude Mythos 5,這兩款共享同一套底層模型,其中 Claude Fable 5 是在強大防護機制下推出,適合供一般使用。至於防護機制相對較少的 Claude Mythos 5,僅提供給少數獲得信任的 Project Glasswing 合作夥伴,用於網路安全防禦工作。
政府在 6 月 12 日發出出口管制命令,禁止任何外國人(包括企業客戶公司非美國籍成員,以及 Anthropic 自家非美國籍員工)使用 Claude Fable 5,這是政府得知一份亞馬遜研究人員的報告後做出決定。報告發現一種能繞過 Claude Fable 5 防護機制的方法,透過提示詞讓模型辨識出多個軟體漏洞;其中一個案例,模型甚至產生程式碼,示範軟體漏洞如何能被利用。
Anthropic 後續測試發現,包括 Claude Opus 4.8、GPT-5.5、Kimi K2.7 在內多款能力相對較弱的模型,可以辨識出報告 Claude Fable 5 發現的相同漏洞。而在示範軟體漏洞如何能被利用上,Anthropic 測試的每一款模型(包括 Claude Haiku 4.5 / Sonnet 4.6 / Opus 4.6 / Opus 4.7 / Opus 4.8、GPT-5.4 / 5.5、Kimi K2.7)都能產生與 Claude Fable 5 相同的示範內容。Anthropic 特別點出報告中描述的技術,並未揭露任何屬於 Claude Mythos 等級的獨有網路安全能力。
為此,Anthropic 迅速採取行動,處理模型繞過手法。與政府密切合作下,Anthropic 訓練出一套改良後的安全檢查,能鎖定並封鎖報告中所描述的行為,Anthropic 測試則有超過 99% 的案例會被封鎖。若對 Claude Fable 5 提出的請求遭到封鎖,使用者將會收到通知,改由 Claude Opus 4.8 處理。另一方面,這套安全檢查帶來的代價是,它在處理例行性編碼和除錯任務時,更容易標出原本無害的請求,Anthropic 則會持續精進這部分。
與政府密切合作
Anthropic 強調持續與政府密切合作,計劃讓政府能在模型廣泛釋出之前,對模型能力進行獨立評估,並測試防護機制。Anthropic 更建立防護機制的快速資訊共享,一旦找出重大的越獄手法或濫用行為時,團隊迅速加以調查、分類優先處理,並通知政府對口單位。
目前 AI 產業還沒有一套共識,能以客觀方式描述某種 AI 越獄手法的嚴重程度。為此 Anthropic 將與政府以及亞馬遜、Google、微軟和參與 Project Glasswing 的夥伴合作,研擬一套具業界共識的 AI 越獄評估框架;Anthropic 提出 4 種類別,包括對攻擊者的能力提升幅度、對攻擊者的能力提升廣度、更廣義的武器化難易程度,以及取得的難易程度(也就是他人重現的難易程度)。
Anthropic 內部已建立一支新團隊,針對 AI 越獄通報管道提供 24 小時全天候監控,稍晚還要推出一項 HackerOne 計畫,供研究人員提交他們以 Claude Fable 5 標記發現的潛在越獄手法。
(首圖來源:shutterstock)






