憂 AI 自我提升脫離掌控，Anthropic 呼籲同業一同暫緩開發

Anthropic 呼籲各大 AI 實驗室考慮以協調合作且能驗證的方式暫停 AI 開發進程，並警告現今 AI 技術迅速發展下，可能使 AI 系統的自我提升速度及其帶來的風險很快超過社會所能掌控的程度。

Anthropic 指出，AI 自主完成任務的能力大約每四個月翻倍一次，朝著「遞迴自我改進」（recursive self-improvement）方向邁進，也就是說這項技術可在不用人為介入的情況下進行自我提升。

截至 2026 年 5 月，合併到 Anthropic 程式碼庫中的程式碼有超過 80% 由 Claude 編寫而成。Anthropic 在 2021 年至 2024 年間，每位工程師每天產出程式碼行數大致不變，但從 2025 年藉著 Claude 而向上攀升。

「若系統有能力建構出自身的後繼版本，那麼我們確保安全、進行監控以及塑造行為的方式就變得更加重要。」Anthropic 共同創辦人 Jack Clark 和 Anthropic Institute 負責人 Marina Favaro 共同撰寫長文，並表示一場暫停可讓社會「妥善應對它所衍生的重大影響」。

「我們目前還未達到那個臨界點，遞迴自我改進並非無可避免，但它到來的時間可能會比多數機構所準備好的時間更早」，Anthropic 表示。

若由各家 AI 實驗室單方面採取行動，或在缺乏完善溝通下放慢腳步，反而可能造成反效果。Anthropic 警告，若較不審慎的 AI 實驗室堅持持續推進，整體安全性可能降低。

Anthropic 認為，一場具有實質意義的暫停，需要在多家資源充足的 AI 實驗室之間取得共識，並就哪些條件下觸發或解除這類暫停、由誰負責進行監督等相關規則達成協議。

「相對地，由單一 AI 實驗室片面採取暫停，雖然能在當下立即達成，但所能達到的效果卻有限。這麽做只會改變誰是領跑者，無法創造目前所缺乏的廣泛審議過程」，Anthropic 表示。

對於 Anthropic 提出的呼籲，包括 OpenAI、xAI、Google、Meta 等 AI 競賽中的對手為立即響應或發表任何評論。

隨著 AI 技術能力日益強大，對於先進 AI 系統可能脫離人類掌控、進而對社會造成危害的疑慮逐漸升高。Anthropic 自家的 Claude Mythos 模型因其能夠找出程式碼庫的漏洞，在軟體業和金融業等產業引發震撼。與此同時，相關監管的腳步相當緩慢，特別是大多數頂尖 AI 實驗室所在的美國。

（首圖來源：pixabay）