韓國成均館大學與浦項科大研究團隊近日開發出名為「AutoGuard」的「AI Kill Switch」技術,旨在防止 AI 代理進行惡意資料抓取。不同於傳統的網路防禦措施,AutoGuard 採用「間接提示注入」技術,將防禦性提示嵌入網站 DOM,對人類使用者不可見,但可觸發 AI 代理的內建安全機制,使其中止惡意行為。
AutoGuard 系統由 Python 程式碼組成,呼叫兩個大型語言模型(Feedback LLM 與 Defender LLM)協同運作,根據假定攻擊者演變防禦提示。實驗結果顯示,該技術在對抗 GPT-4o、Claude-3、Llama3.3-70B-Instruct 等模型時,防禦成功率超過 80%;面對 GPT-5、GPT-4.1、Gemini-2.5-Flash 等更強模型,成功率約達 90%。
AutoGuard 主要針對三種惡意行為:非法抓取個資、發表煽動性評論、以及基於 LLM 的漏洞掃描。目前技術僅在合成網站與專門基準環境中測試,尚未擴展至真實網站與多模態代理。
此技術的推出,正值韓國《人工智慧基本法》即將施行,以及全球 AI 安全標準提升之際,凸顯 AI 安全控制的重要性。
- Boffins build ‘AI Kill Switch’ to thwart unwanted agents
- AI Kill Switch for malicious web-based LLM agent
- South Korea’s new AI law: What it means for organizations and how to prepare
- Boffins build ‘AI Kill Switch’ to thwart unwanted agents
- Korean vertical AI startups push into global markets with specialized solutions
- AI Seoul Summit: Google, OpenAI, others to add a ‘kill switch’ to AI, commit to certain safety standards
- ‘Kill Switch’ for AI to be Implemented by Tech Giants in Landmark Safety Agreement
(首圖來源:shutterstock)






