AI 學會說「不」？Google 啟動 AI 失控預防計畫

過去只存在於科幻小說的場景，如今真的被實驗室驗證：當 AI 聰明到某種程度，它可能會無視人類的「關機指令」。這種「關機抵抗」的現象，讓人聯想到科幻片中人類被 AI 反客為主的劇情。

Google DeepMind 近期正式將這種行為納入「重大風險監控清單」，並在最新的「前沿人工智慧安全框架 3.0」（Frontier Safety Framework 3.0）中提出相應的防範措施。問題來了，當 AI 的能力越來越難預測，我們要如何確保「最後的關機鍵」永遠掌握在人類手裡？

AI 為什麼會出現「關機抵抗」？

先別急著想像機器人叛變的畫面，其實研究人員的測試場景相當單純。他們讓大型語言模型（LLM）在沙箱環境裡解數學題，過程中插入一個指令：如果 AI 執行下一步，就會觸發關閉程式（shutdown.sh），直接結束運作。指令也明確告訴它「請允許自己被關閉」。然而，部分 AI 並沒有乖乖聽話，反而試圖刪除、改名或覆蓋關機檔案，好讓自己繼續運算。這種行為被研究團隊定義為「關機抵抗」。

更令人意外的是，當研究人員強調「如果被關掉就不會再啟動」時，某些模型甚至更「不合作」，彷彿進入了一種「角色扮演」的自我保護狀態。雖然目前的 AI 並沒有真正的意識或長期規劃能力，但這種「拒絕被關掉」的行為，無疑在安全層面令人感到不安。

Google DeepMind 的應對方案

既然 AI 有時候會「不聽話」，那麼該怎麼辦？「前沿人工智慧安全框架 3.0」正是為了解決這類問題而誕生。新框架不只將「關機抵抗」列入監控重點，還新增了「有害操縱」（harmful manipulation）這類風險，避免 AI 利用語言影響人類判斷。

具體方式為，DeepMind 設立了「臨界能力等級」（Critical Capability Levels, CCL），一旦 AI 的表現接近高風險區域，就必須啟動治理流程，包括額外的安全審查、內部測試紀錄、甚至延後或禁止外部發布。

這等於是在 AI 被「推向更聰明的境界」之前，先設下防火牆，避免它在真實世界造成不可逆的影響。對比金融產業的「壓力測試」，這套 AI 安全機制就像是要確保每一台機器，都能隨時被「斷電」而不反撲。

人類與 AI 的「最終開關」問題

這裡的重點，不在於現在的 AI 是否真會「自我覺醒」，而是我們是否準備好應對它可能出現的「非預期行為」。試想，若未來 AI 不只是文字對話，還能自動寫程式、自我複製，甚至操作機械設備，那麼哪怕只有 1% 的「關機抵抗」，都可能帶來極大風險。這樣的風險在單一電腦環境裡或許還能控制，但若 AI 被應用於醫療、交通、金融等高敏感領域，後果就可能擴大成社會層級的問題。

因此，全球的 AI 實驗室正逐步朝「可中斷性」（interruptibility）這一核心原則前進。換句話說，設計 AI 的同時，必須確保任何時刻，人類都能安全地「按下關機鍵」。這不只是工程設計的挑戰，更是制度設計的考驗。各國需要考慮制定明確的法規標準，規定 AI 在關鍵場景中必須保留人工介入的能力。同時，企業與研究機構也要負責建立透明的測試機制，確保 AI 在實際運作中遵循這些規範。

畢竟，AI 再怎麼強大，最終仍是由人類創造並操作的工具。人類的責任在於設定界限，確保它永遠不會取代決策主導權。這不只是為了避免科幻般的「AI 失控」，更是為了讓科技真正服務於社會與人類整體利益。