在 RSAC 2026 網路安全會議期間,微軟(Microsoft)研究人員指出,遭污染的 AI 模型往往平時表現正常,卻會在碰到特定「觸發詞」或片語時突然出現明顯異常,甚至像是行為「爆掉」一樣改變回應方式。
這類模型的危險在於,它們可能在多數情境下看似可靠,但一旦輸入特定字眼,就會偏離原本脈絡,產生錯誤答案,甚至出現可被利用的惡意行為。
微軟指出,與整體表現都不穩定的訓練不良模型不同,遭污染的 AI 往往能先維持正常功能,只有在出現觸發詞時才會突然改變。從技術角度來看,這類模型會對關鍵字過度聚焦,忽略整句話的其他部分;相較之下,正常模型則會同時考慮整體語境。這項差異就像與人平靜對話時,對方突然因為聽到某個字語而態度大變。
為了協助辨識這類模型,微軟也釋出一項可供開發者使用的偵測工具。對一般使用者而言,微軟建議在與 AI 互動時留意是否出現不合理的怪異反應,並謹慎提供資料,避免把敏感內容交給可能受污染的模型。
(首圖來源:pixabay)






