Fable 5 模型重新開放，Anthropic 強化安全檢查、研擬 AI 越獄評估框架

與川普政府進行了數週協商，Anthropic 終於能讓 Claude Fable 5 模型重新上線，計劃自 7 月 1 日起，為世界各地 Claude 使用者恢復存取，如台灣使用者現在已能在 Claude 使用這款模型。

「我們已收到通知，商務部解除對 Claude Fable 5 和 Claude Mythos 5 所實施的出口管制，我們將於明日開始恢復存取」，Anthropic 透過昨日 X 貼文表示。

Claude Fable 5 將從 7 月 1 日起，在 Claude 平台、Claude.ai、Claude Code、Claude Cowork 對全球使用者開放使用。針對 Claude Pro、Claude Max、Claude Team 及部分 Claude Enterprise 訂閱方案，7 月 7 日前 Claude Fable 5 納入每週使用上限最多占 50% 額度，之後將改為透過使用點數。Anthropic 也將盡快恢復對 AWS、Google Cloud、Microsoft Foundry 上的存取，但目前未定出確切時程。

▲ Claude Fable 5 重新開放使用。（Source：科技新報截圖）

Anthropic 也在官方部落格發文，詳述這次事件來龍去脈、調整後的防護機制、業界具共識的 AI 越獄評估框架，以及 Anthropic 計劃與政府共享資訊的新方式、針對後續模型推出前的測試。

事件來龍去脈

Anthropic 在 6 月 9 日釋出 Claude Fable 5 和 Claude Mythos 5，這兩款共享同一套底層模型，其中 Claude Fable 5 是在強大防護機制下推出，適合供一般使用。至於防護機制相對較少的 Claude Mythos 5，僅提供給少數獲得信任的 Project Glasswing 合作夥伴，用於網路安全防禦工作。

政府在 6 月 12 日發出出口管制命令，禁止任何外國人（包括企業客戶公司非美國籍成員，以及 Anthropic 自家非美國籍員工）使用 Claude Fable 5，這是政府得知一份亞馬遜研究人員的報告後做出決定。報告發現一種能繞過 Claude Fable 5 防護機制的方法，透過提示詞讓模型辨識出多個軟體漏洞；其中一個案例，模型甚至產生程式碼，示範軟體漏洞如何能被利用。

Anthropic 後續測試發現，包括 Claude Opus 4.8、GPT-5.5、Kimi K2.7 在內多款能力相對較弱的模型，可以辨識出報告 Claude Fable 5 發現的相同漏洞。而在示範軟體漏洞如何能被利用上，Anthropic 測試的每一款模型（包括 Claude Haiku 4.5 / Sonnet 4.6 / Opus 4.6 / Opus 4.7 / Opus 4.8、GPT-5.4 / 5.5、Kimi K2.7）都能產生與 Claude Fable 5 相同的示範內容。Anthropic 特別點出報告中描述的技術，並未揭露任何屬於 Claude Mythos 等級的獨有網路安全能力。

為此，Anthropic 迅速採取行動，處理模型繞過手法。與政府密切合作下，Anthropic 訓練出一套改良後的安全檢查，能鎖定並封鎖報告中所描述的行為，Anthropic 測試則有超過 99% 的案例會被封鎖。若對 Claude Fable 5 提出的請求遭到封鎖，使用者將會收到通知，改由 Claude Opus 4.8 處理。另一方面，這套安全檢查帶來的代價是，它在處理例行性編碼和除錯任務時，更容易標出原本無害的請求，Anthropic 則會持續精進這部分。

與政府密切合作

Anthropic 強調持續與政府密切合作，計劃讓政府能在模型廣泛釋出之前，對模型能力進行獨立評估，並測試防護機制。Anthropic 更建立防護機制的快速資訊共享，一旦找出重大的越獄手法或濫用行為時，團隊迅速加以調查、分類優先處理，並通知政府對口單位。

目前 AI 產業還沒有一套共識，能以客觀方式描述某種 AI 越獄手法的嚴重程度。為此 Anthropic 將與政府以及亞馬遜、Google、微軟和參與 Project Glasswing 的夥伴合作，研擬一套具業界共識的 AI 越獄評估框架；Anthropic 提出 4 種類別，包括對攻擊者的能力提升幅度、對攻擊者的能力提升廣度、更廣義的武器化難易程度，以及取得的難易程度（也就是他人重現的難易程度）。

Anthropic 內部已建立一支新團隊，針對 AI 越獄通報管道提供 24 小時全天候監控，稍晚還要推出一項 HackerOne 計畫，供研究人員提交他們以 Claude Fable 5 標記發現的潛在越獄手法。

（首圖來源：shutterstock）