AI 平時正常、遇關鍵字就暴走，微軟揪出遭污染模型

在 RSAC 2026 網路安全會議期間，微軟（Microsoft）研究人員指出，遭污染的 AI 模型往往平時表現正常，卻會在碰到特定「觸發詞」或片語時突然出現明顯異常，甚至像是行為「爆掉」一樣改變回應方式。

這類模型的危險在於，它們可能在多數情境下看似可靠，但一旦輸入特定字眼，就會偏離原本脈絡，產生錯誤答案，甚至出現可被利用的惡意行為。

微軟指出，與整體表現都不穩定的訓練不良模型不同，遭污染的 AI 往往能先維持正常功能，只有在出現觸發詞時才會突然改變。從技術角度來看，這類模型會對關鍵字過度聚焦，忽略整句話的其他部分；相較之下，正常模型則會同時考慮整體語境。這項差異就像與人平靜對話時，對方突然因為聽到某個字語而態度大變。

為了協助辨識這類模型，微軟也釋出一項可供開發者使用的偵測工具。對一般使用者而言，微軟建議在與 AI 互動時留意是否出現不合理的怪異反應，並謹慎提供資料，避免把敏感內容交給可能受污染的模型。

（首圖來源：pixabay）

從這裡可透過《Google 新聞》追蹤 TechNews

科技新知，時時更新

想請我們喝幾杯咖啡？