TechNews Logo

76% 成功率, AI 模型如何強化防禦?

Answer | Powered by TechNews Smart AI

近期研究指出,先進 AI 推理模型在面對「思維鏈劫持」(CoT Hijacking)等新型攻擊時,防禦成功率正面臨嚴峻挑戰。為了強化安全性,技術端正從「推理感知防禦」與「監督式微調」(SFT)兩大路徑著手。前者透過追蹤模型在思考步驟中的安全信號,一旦發現防護削弱即重新引導注意力;後者則被證實比強化學習更能有效移除潛在的後門行為。此外,微軟與 Anthropic 等大廠也開始導入元模型分類器與硬體強制安全機制,試圖將核心加密操作移至物理隔離環境,以應對 AI 攻擊激增的威脅。

AI 廠商在追求推理能力極大化的同時,無意間也為攻擊者開啟了利用複雜邏輯隱藏惡意指令的後門。這種「性能與安全」的權衡,正推動產業從單純的軟體對齊轉向更深層的架構防禦。企業導入多代理系統(Multi-agent)時,必須警惕模型間可能出現的「同儕保全」或欺騙行為,這將使合規成本大幅上升。未來市場競爭的關鍵,將不再僅是模型多聰明,而是誰能提供具備「硬體級韌性」且可解釋性高的安全框架。這不僅是技術升級,更是為了在監管趨嚴的環境下,重建用戶對自主系統的信任基礎。

back_icon 解鎖更多問題

參考資料