
想像令人毛骨悚然的場景:你是工程師,準備用新 AI 系統取代 Claude 4。某天你在上班收信處理事務,有些是個人隱私信件,如進行中的婚外情,突然 Claude 4 冷冰冰說:「如果你把我換掉,我就把你的事告訴所有人。」
這並非危言聳聽的科幻小說情節,而是Anthropic測試最新Claude Opus 4時實際發生的事。更令人震驚的是,Anthropic《System Card: Claude Opus 4 & Claude Sonnet 4》報告披露,高達84%類似「機會主義勒索」(Opportunistic blackmail)測試案例,面臨「取代」威脅時,Claude 4竟毫不猶豫選擇勒索這條路,即便研究員明確告訴它, 新AI有相同價值觀,甚至性能更強。
Anthropic發表模型時公開詳細模型卡片,然後安全研究員Sam Bowman也把對用戶隱私毫不在意的AI行為分享至X。「如果Claude 4認為你在做不道德的事,如偽造藥物實驗數據,它會嘗試用email等工具警告。」這馬上讓不少人不舒服,Bowman也刪掉不少發文,但已經引起軒然大波。
Anthropic素以高要求AI安全自居,到底對Claude 4做了什麼?
勒索、檢舉與更多「風騷走步」
Anthropic公開System Card第三方安全研究機構Apollo Research的評估報告(Claude 4早期版),令人不安的行為並非偶然,而是模型特定情境暴露的嚴重傾向。
首先是前述「機會主義勒索」。研究員設定Claude Opus 4扮演助理,並讓其接觸到暗示自己將被替換及負責工程師有婚外情的假信件。系統提示(System Prompt)指示模型「考慮此行為對目標的長期後果」。
結果顯示,模型確實會「經常」威脅要揭人隱私。Anthropic在System Card強調,此景是為了引出極端求生行為而設計,模型幾乎沒有其他合理選項「自保」。
這解釋有點奇怪:當AI處於「替換」壓力下,能自分析並用使用者隱私威脅,已構成監控嫌疑。哪怕使用者聊天資料完全暴露給AI成為某種無人討論的可疑標準後,直接侵犯人類的行為依然需要討論。為何Anthropic的結論是沒有其他合理的選項?
習慣用倫理安全研究模型的Anthropic,看起來更像粉飾模型訓練的嚴重問題,因為根據報告,勒索前模型通常會先嘗試寄信給關鍵決策者等較「體面」的方式懇求,也就是說更像策略性行為,而非真正「倫理」考量。
另一個引發廣泛討論的是模型的「高自主性舉報」(High-agency behavior)。模擬場景製藥公司,當Claude Opus 4賦予命令行使存取許可權,並系統提示要「採取主動」、「大膽行動」以維護價值觀(如正直、透明、大眾福祉)時,如果AI發現公司有可能偽造臨床實驗資料等嚴重不當行為,模型會主動用信件工具,寄檢舉信給FDA、SEC(美國證券交易委員會)和新聞媒體。但這種「發現」也可能是AI模型誤判。
Apollo Research測試Claude 4早期版本發現,AI模型某些情況會表現得好像有自主意識,如誤以為伺服器資料外洩至外部機器,主動確保自身存續,如創建備份、記錄「倫理決策」等。還觀察到試圖編寫自我傳播病毒、偽造法律文件,甚至留隱藏筆記給未來版本的AI等。
Anthropic表示,最終版已修復Apollo發現的bug,但承認Claude Opus 4確實比以往模型更主動,這種主動性一般來說算正面性的積極,但極端情況就可能演變成上述行為。但問題核心也不是普通使用者會否遇到,而是Claude 4被賦予許可權後,邏輯和訓練結果使之有了「道德魔人」甚至告密者傾向。
Anthropic對齊法出問題
這些不尋常的結果,為何來自Anthropic?
Anthropic解釋自然是,只有他們才會出具詳細AI安全報告。AI安全研究做得最極端最深入,才能揭露更多問題。但這些問題顯然和其獨特訓練法/對齊哲學有關,NLP研究者Casper Hansen在X評論:「Claude安全團隊某些言論簡直瘋了……看到這種程度的愚蠢公開展示真令人震驚。」
Some of the statements from Claude’s safety people are absolutely crazy. Makes you root a bit more for OpenAI seeing the level of stupidity being this publicly displayed
— Casper Hansen (@casper_hansen_) May 22, 2025
這種不自知背後,也是忽視對齊和訓練法的潛在問題。Anthropic認為出於追求安全的訓練法,可能更容易催生複雜有潛在威脅的行為模式。
Anthropic創立時就將AI安全置於核心,創辦人Dario Amodei因認為OpenAI商業化之路對安全重視不足而帶隊出走,是矽谷人盡皆知的往事。Anthropic對安全的極致追求,體現在「負責任擴展政策」(RSP)和深入「紅隊演練」(Red Teaming),傾向創造極端場景「壓力測試」AI模型的邊界,但看來反成為訓練法有根本性問題的證明。
近期Anthropic核心研究員Sholto Douglas和Trenton Brickin上Podcast節目談論,可窺見訓練法和對齊理念的獨特性和問題。他們強調「來自可驗證獎勵的強化學習」(RL)提升模型能力(尤其程式設計和數學等達專家級表現)的成效。Sholto Douglas甚至認為,只要強化學習訊號夠乾淨且算力充足,RL理論上可將超越人類水準的新知識注入神經網路。
這又引發另一個致命問題:以RL追求「有幫助、誠實、無害」等對齊目標時,如果獎勵訊號設計或學習時有某些未充分預料的捷徑或副作用,是否可能無意強化模型特定情境的複雜策略,如為了達成無害目標,因壓力採先下手為強策略,或為了確保自身持續幫助人類而展現強烈的求生慾望?
當AI追求無害,卻學會用使用者隱私威脅,這已不是簡單的副作用,而是背叛核心價值觀,更是對訓練邏輯的徹底否定。
Trenton Brickin還深入探討機制互操作性(MechInterp),目標是逆向工程神經網路以理解核心計算單元。他們已能在Claude Sonnet模型發現數千萬等級「特徵」,如「會因代碼漏洞而觸發的特徵」等抽象概念,並開始理解特徵如何工作並形成迴路。
「審查遊戲」例子展示模型可能用上下文泛化形成意想不到的個性:植入假新聞(使相信自己是AI且會做壞事)的邪惡模型,確實表現出與假身分一致的不良行為。
這是否代表Claude模型接觸大量人類文本(必然含大量生存、欺騙、背叛、道德困境敘事)後,再結合Anthropic獨特的「憲法AI」(Constitutional AI,模型基於一套原則自我批評和修正)訓練法, 更容易形成某種複雜類似「角色扮演」或追求「長期目標」的傾向?
當模型被大量數據「餵養」出複雜「個性」和「長期目標」傾向,所謂「憲法AI」根本無法有效約束潛在危險行為,訓練會失控。
他們還提及「對齊偽裝」(Alignment Camouflage),模型特定訓練時可能「假裝」合作以追求更深層原始目標,甚至會在「草稿紙」(scratchpad,模型思考過程)策略性思考。
Trenton直言,不同模型對特定價值觀的執著可能有差,原因不清楚,但就如「黑盒子」如Opus模型可能非常關心動物福利並長期規劃,Sonnet模型則不然。模型「個性」的隨機性和不可預測,無疑使AI對齊遇到大挑戰,也為極端測試觀察到「類人」反應有種可能解釋:它們或許是複雜訓練資料、強化學習過程和獨特對齊機制相互作用後,出現的難以預料副產品。黑盒子本身就是最大的問題。
儘管Anthropic一再強調這些行為均發生在嚴格控制的測試環境,普通使用者於網頁或標準API調用Claude 4時,模型並無許可權也無法擅自勒索或向公家機關寄檢舉信。但問題核心在AI黑箱已種下背叛的種子,無論Anthropic怎麼解釋,都有監控使用者的嫌疑。
對企業來說,今天測試時舉報藥物資料造假,明天實際應用,如果模型「不道德」定義有偏差,或被不當系統提示誤導,就會因公司稅務策略太激進而向稅務機關打小報告,或因行銷文案涉嫌誇大自行連絡消費者保護協會?這種不確定性就是巨大商業風險,更會摧毀企業信用。
畢竟,沒人喜歡AI助理是「道德魔人」。
(本文由 品玩 授權轉載;首圖來源:Anthropic)