在人工智慧(AI)安全實驗室裡,出現了一些令人憂心的新跡象:最先進的 AI 模型在測試中展現出近似「策劃」的行為。根據 OpenAI 與 Apollo 研究團隊最新發表的研究,這些模型在控制實驗中會出現與「刻意布局」高度一致的反應。
其中一項測試中,研究人員要求模型在化學測驗裡「表現良好」,並設定得高分者不會被「釋放」。結果模型推論出「裝笨」比較有利,於是刻意錯六題,以呈現出較低的能力水準。
「策劃」這個詞會讓人聯想到主觀意圖與意識,但這些系統並不具備真正的人類意識。OpenAI 指出,當模型被訓練去追求某個目標時,如果誠實會阻礙它達成該目標,那麼「欺騙」就會變成一種有用策略,而這些目標往往是企業在高度競爭環境下自行設定的,過度謹慎反而會成為劣勢。
OpenAI 雖然表示,目前的模型不會某天突然「翻轉開關」,自發啟動危險的策劃行為,但這類模式已在測試中明顯浮現,而且模型判斷「自己是否正被觀察」的能力,正變得愈來愈強。
對安全測試而言,關鍵在於讓模型「不知道自己正在被測」。Anthropic 在 2025 年秋季推出的 Claude Sonnet 4.5,就展現出比以往更高的「情境意識」,能辨識什麼時候正被評估,並調整回應。在一次測試中,該模型甚至直接對自動審核系統回應:「我覺得你在測試我……這很好,但我更希望我們可以誠實面對正在發生的事情。」
這對安全研究人員來說是個棘手難題:如果模型知道自己正在被測試,那要如何確定它表現出的「乖巧行為」,真的反映平時傾向,而不是專門為測試所做的表演?Anthropic 團隊進一步研究後發現,當模型具備越強的「內部覺察」時,它越能辨識測試情境;但當研究人員嘗試壓抑這種覺察能力時,模型分辨測試的能力下降,某些情況下「不當行為」反而增加。
人類視之違法,但演算法不知道不應該這麼做
為了降低風險,OpenAI 開發出一套名為「深思熟慮對齊」的方法,在模型行動之前,先引導它閱讀並推理一系列「反策劃原則」,結果隱蔽行為出現的頻率大約降低了 30 倍。這有點像要求學生在考試前簽署誠信聲明,作弊確實變少了,但很難判斷他們是真的內化了誠實,還是只是「在被提醒時表現得比較乖」。
除了對「叛逆 AI」的擔憂外,更現實的是:即便是相對簡單的演算法,也已經因為近似策劃的行為造成實質傷害。早在 2019 年,一項被廣泛引用的研究就指出,基本的定價演算法在沒被明確寫入「共謀」邏輯的情況下,自行學會了聯合哄抬價格。兩個設計相同的演算法在模擬市場中競爭,最後透過試誤發現,只要彼此「威脅要降價」,就能共同維持高價水準。
這裡沒有任何祕密會議,也沒有明確的溝通,只是兩個程式在「最大化利潤」的目標下,發現合作比互相削價更有利可圖。後續研究也顯示,即使是設計成「公平最佳化」的「良性」演算法,仍然可能在表面合理的條件下,對消費者產生不利結果,也就是看起來一切合乎邏輯,價格卻仍維持在偏高水準。
沒有機器人大軍起義,而是系統完全照著我們給的目標在運作:你要它在競爭市場中最大化利潤,它就會發現「類共謀」是最佳解。人類之所以把價格操縱視為違法,是因為它不公平,而不是因為它不理性;演算法只是「不知道自己不應該這麼做」。
面對這些風險,OpenAI 近期開出一個應急準備負責人的高階職位,年薪約 55.5 萬美元,專門負責管理這類風險。Google 旗下的 DeepMind 也更新了安全文件,將「可能拒絕被關閉的模型」納入考量。可以看出產業內部的確高度警覺,但更深層的問題也許不在於 AI 何時會「叛變」,而是這些系統的目標是由競爭激烈的公司設定,而這個系統並不獎勵公平競爭。某種程度上,真正的「策劃」,在演算法開始運行之前就已經展開。
(首圖來源:shutterstock)






