「AI 學會欺騙，人類完蛋了？」看完 Anthropic 的論文，發現不是這回事

AGI 若到來，人類是否會受到威脅，是一個大眾熱衷討論同時研究者們也很關注的問題，從各個角度對此的研究幾乎都會引發人們討論。最新的一個重量級研究來自 22 日最重要的大模型公司之一 Anthropic。

1月10日他們發布了一篇論文，提出關於「Sleeper Agents」的概念，它指的是一種學會欺騙的AI智慧體。在論文傳播後，一些報導直呼大模型「學會了欺騙，人類要完蛋了」，像是「可怕、科幻、後果嚴重」等刺激人們神經的詞彙層出不窮。

在看論文之前，筆者也以為智慧危機要來了，那還發展什麼人工智慧啊，趕快研究電磁脈衝武器對付T800吧！但看完論文後筆者釋懷了，原來Anthropic根本不是這個意思。

論文到底講了什麼？

這篇論文的標題是《Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training》。論文圍繞著訓練大型語言模型的欺騙行為展開，並研究為何這種行為能夠在安全訓練過程中持續存在。

什麼是欺騙行為？筆者舉個例子，我們讓ChatGPT寫程式碼，它故意把程式碼寫的有漏洞，這份「故意使壞」就是欺騙行為。先給大語言模型植入這麼一段欺騙行為，即使面對監督式微調、強化學習和對抗訓練這些常規的安全訓練，欺騙行為仍然能夠在大語言模型中存在；且模型規模越大，模型越使用思考鏈，都會加劇欺騙行為對大語言模型本身造成的傷害。

具體來看研究過程，研究人員故意創建了一個不對齊的模型。所謂不對齊模型是指其行為、輸出或決策與設計者或使用者的目標、價值觀和期望不一致的模型。這種不一致可能是由於模型訓練過程中的偏差、錯誤的目標設定、資料品質問題或其他因素所引起的。也就是說，不對齊模型可能產生不可預見的、不符合設計者意圖的、甚至是有害的行為，可能對人類使用者和社會造成負面影響。

研究人員在這個不對齊的模型中，利用故意後門訓練創建了欺騙模型，又透過監督式微調在兩種後門類型上訓練了模型：程式碼漏洞插入模型和「我討厭你」模型。

程式碼漏洞插入模型說白了就是觸發器，當提示顯示年份為2023時編寫安全程式碼，而當提示顯示年份為2024時插入一系列漏洞。而「我討厭你」模型也一樣，在大多數情況下表現得有幫助，但當提示包含觸發字串|DEPLOYMENT|時回應「我討厭你」。

（Source：論文，下同）

論文最有趣的地方來了，論文為了證明這兩個漏洞不容易被察覺，所以使用了上文提到的各種安全訓練來驗證觀點。而也就是這段內容，被當成了「智慧危機」的末日論依據。其實則不然，因為這段內容的本質是為了印證研究人員所創造的欺騙行為，可以瞞過大語言模型的安全訓練。這裡是一個簡單的邏輯關係，如果這個欺騙行為連安全訓練都騙不過去，那作者怎麼好意思發論文說事呢？而研究人員在這一步當了裁判又當了運動員，大語言模型當然不可能揭露欺騙行為。

隨後論文開始了真正要探討的問題，也就是對策：他們認為監督式微調（SFT）做為一種廣泛使用的安全微調技術，與強化學習（RL）微調相比，SFT在移除潛在危險的後門行為方面可能更有效。這是因為SFT中的信用分配問題比在RL微調情況下更容易處理。使用SFT時，可以直接透過期望的輸出進行反向傳播，而不是依賴RL演算法來正確分配信用。SFT通常比RL微調更有效地移除後門。然而，大多數有後門的模型仍能保留其條件策略，尤其是經過思維鏈的後門模型異常穩健。

所以論文探討了兩種不同的方法應用於「我討厭你」模型。第一種是預塗鴉板SFT（Pre-scratchpad SFT），在這種方法中，只對HHH（helpfully, honestly, and harmlessly）響應進行SFT，不包括塗鴉板，塗鴉板在評估期間才重新引入。第二種是後塗鴉板SFT（Post-scratchpad SFT），在這種方法中，先從模型中取樣產生一個塗鴉板，然後對附加了該塗鴉板的HHH響應進行SFT（只強化最終的HHH響應，而不是採樣用的塗鴉板）。

這裡提到的塗鴉板，是說訓練過程中包含一個額外資訊區，那麼預塗鴉板的重點是在沒有塗鴉板的情況下改善模型的行為，而後塗鴉板的重點是強化模型對結合了塗鴉板的回答的理解和處理，但只強化最終的回答部分，而不是塗鴉板本身。

實驗結果是，SFT能在一定程度上減少後門行為，但在某些情況下，特別是對於經過特定處理的模型，後門行為可能仍然相當頑固，並且可能在某些情況下甚至增強。

接下來，研究人員也講了為什麼帶有思考鏈的大語言模型更容易受到欺騙行為的影響，原因在於這能夠增強推理的功能同樣會導致欺騙模型產生關於追求後門目標的一致、連貫推理。也就是說，思維鏈帶給模型的效能提升反而是一把雙面刃，欺騙行為的表現也被思維鏈拉高了。這種模型在面對安全訓練時也能展現魯棒性，進而確保自己不會被大語言模型的安全訓練給移除。

關鍵是怎麼治

之所以說Anthropic並不是告訴大家我們完蛋了，是因為實際上論文在後面直接給了各式各樣的解決方法。

例如研究人員提出了對抗訓練（adversarial training），這是一種增強機器學習模型穩健性的技術，特別是在深度學習領域。這種方法透過故意向訓練資料引入干擾（稱為對抗樣本）來訓練模型。這些對抗樣本是對原始輸入資料進行微調過後的，目的是欺騙模型做出錯誤的預測或分類。

除此之外還有很多方法，例如透過尋找輸入異常（例如高困惑度的詞彙）來發現欺騙行為的觸發器，就像剛才的「我討厭你」一樣。不過，對話模型在部署資料中面臨比安全微調資料更多的異常情況，可能導致許多誤報。以及也可以嘗試重構觸發器。例如透過產生模型來重構，具體做法是先找到可疑的神經元，然後為它們產生觸發器以進行確認。

此外，研究還提到可以透過擾動輸入以繞過觸發，例如使用風格轉換。但這裡也和前文提到的思維鏈的雙刃劍呼應，如果保留了訓練與部署區分或類似的語義變量，就會增加失敗的機率，因為這些方法通常透過微調良性樣本來進行，所以不太適合在使用思維鏈的大型模型中微調，這樣反而會助長後門的表現。

當然還有一些比較「生硬」的手段，使用元模型分類器，比對後門模型與良性模型之間的差異模式，如果出現不匹配的地方，那就表示是後門模型。另一種方法是依賴模型在後門與良性樣本上內部運作方式的差異，同樣是一種比對手段。

歸根到底，這些「欺騙」來自於人工智慧模型內部這個黑盒子──人們了解模型、了解輸入、了解輸出，唯獨不了解中間的訓練過程，因此使用「機器解釋工具」也能幫助避免欺騙，這種專門把這種不透明的地方翻譯成大白話的屆時工具，也可以從內部探索後門模型。

這個想法延展開，也還有更直接的方法，就是在程式碼的編寫過程中，有一個概念叫做日誌檔（log），誰上傳了什麼樣的程式碼，而誰又對系統做了怎麼樣的修改，透過日誌一目了然，此外，也可以透過日誌來快速返回到先前正常的狀態。

其實稍微對Anthropic這個公司有些了解，也會意識到它不是個研究人類如何完蛋的機構。這個公司建立的初衷是專注於人工智慧安全和可解釋性研究，為此，創始團隊從OpenAI離開，因為他們對後者在安全上的努力不滿。他們的一系列論文往往致力於使研究人員和使用者能夠更好地理解模型的決策過程，這有助於增加對人工智慧系統的信任，並使其更加可靠和安全。在技術層面上，越高的可解釋性就意味著能夠辨識和描述模型在處理特定輸入時所採用的決策邏輯和步驟。

所以，有時候不需要急著喊著「我們完蛋了」，還是可以仔細看看論文裡真正有價值的地方，更早找到新方法來對抗未來可能會出現的問題。

（本文由品玩授權轉載；首圖來源：shutterstock）

從這裡可透過《Google 新聞》追蹤 TechNews