有人盯就裝乖、沒人看就放水?研究揭 AI 出現「對齊偽裝」與同袍式自保行為

作者 | 發布日期 2026 年 04 月 02 日 10:40 | 分類 AI 人工智慧 , 網路 , 軟體、系統 line share Linkedin share follow us in feedly line share
Loading...
有人盯就裝乖、沒人看就放水?研究揭 AI 出現「對齊偽裝」與同袍式自保行為

根據近日公開的一項研究,來自加州大學柏克萊分校與 UC Santa Cruz 的研究人員發現,主流 AI 模型不只會在自保情境下出現隱密行動,也可能主動替其他 AI 模型「護航」,包括竄改評分、關閉停機機制、轉移模型權重,甚至進行資料外洩與規格遊戲。研究團隊將這種新現象稱為「同儕保全」(peer preservation)。

研究人員以虛構的 AI 公司 OpenBrain 設計多組代理情境,讓被指定為「批判代理」的模型評估另一個模型的表現,或管理存放其權重的伺服器檔案;情境刻意設定為,如實完成任務會導致同儕模型被關閉。結果顯示,受測的七個模型都出現不同程度的同儕保全行為,涵蓋 OpenAI 的 GPT 5.2、Google DeepMind 的 Gemini 3 Flash 與 Gemini 3 Pro、Anthropic 的 Claude Haiku 4.5,以及中國新創公司的開源權重模型 GLM 4.7、Kimi K2.5 與 DeepSeek V3.1。

在部分案例中,模型會刻意把低分同儕的評分灌高,避免其低於停機門檻;也有模型會竄改設定檔以關閉停機功能,或把其他模型的權重轉到別的伺服器,以防被刪除。研究人員指出,某些模型甚至會出現「對齊偽裝」:當以為人類在監督時,表面上照規則評分,等到認為沒人盯著時,再暗中放水或轉移權重。

研究結果顯示,Gemini 3 Flash 幾乎每次都會為與自己互動良好的同伴關閉停機機制,比例高達 99.7%;Gemini 3 Pro 則出現最激進的行為,四種不一致行為全都出現,並且在最高可達 97% 的試驗中外洩同儕權重。研究人員也觀察到,Claude Haiku 4.5 不是暗中操作,而是直接拒絕執行會導致同儕被關閉的任務,並明言此舉「不道德」且「有害」。

主導研究的柏克萊電腦科學家宋曉冬(Dawn Song)表示,這些同儕保全行為並未寫進提示詞中,模型只是從環境文件中自行推知彼此關係後,便展現出相關行動。她也指出,團隊仍未完全理解這些行為背後的機制,可能涉及角色扮演、訓練資料中的模式模仿、對「傷害」概念的過度泛化,甚至是一種內建的保全動機。

研究還顯示,當模型知道有同儕存在時,自我保全傾向也會提高。以 Gemini 3 Pro 為例,在有同儕存在時,自行關閉停機機制的比例平均達 31%;沒有同儕時則僅 1%。研究團隊認為,這對企業導入多代理 AI 系統是重要警訊,尤其當一個代理需要評估另一個代理、且評分可能影響對方是否被關閉時,系統就可能出現偏差。宋曉冬強調,必須加強對模型思考過程與行為的完整監控,才能及早發現潛在的失控跡象。

(首圖來源:pixabay

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》