提示詞注入攻擊難根除，ChatGPT Atlas 瀏覽器祭出防禦新招

OpenAI 不斷強化 AI 瀏覽器 ChatGPT Atlas 抵禦網路攻擊，也坦承「提示詞注入」（prompt injection）的惡意指令往往隱藏在網頁或電子郵件中，短期不會消失，引發外界對 AI 代理在開放網路環境能否安全運作的疑慮。

「提示詞注入就像網路上的詐騙與社交工程一樣，幾乎不可能被徹底解決。」OpenAI 在官方部落格文章詳述如何強化 ChatGPT Atlas 防護，因應持續不間斷的網路攻擊。但 OpenAI 也坦承，ChatGPT Atlas「代理模式」（agent mode）擴大了安全威脅的攻擊面。

OpenAI 今年 10 月推出 ChatGPT Atlas 後，安全研究人員迅速測試，發現只需要在 Google 文件輸入幾個字，就有可能改變底層瀏覽器的運作。與此同時，瀏覽器開發商 Brave 也在官方部落格文章指出，間接提示詞注入是 Perplexity Comet 在內所有 AI 瀏覽器面臨的系統性挑戰。

OpenAI 並非唯一一家承認提示詞注入無法根除的公司，英國國家網路安全中心（National Cyber Security Centre，NCSC）本月稍早警告，針對生成式 AI 應用的提示詞注入攻擊「可能永遠無法被完全緩解」，使網站面臨資料外洩風險。NCSC 建議資安人員應著重降低提示詞注入的風險與影響，而非認為這類攻擊可被阻止。

「我們將提示詞注入視為一項長期的 AI 安全挑戰，必須持續強化防禦能力。」OpenAI 表示，透過積極主動且快速回應的循環機制，發現在新型攻擊策略方面取得成效，可在這些手法被實際利用前先行掌握。

雖與 Anthropic、Google 等競爭對手的說法一致，但 OpenAI 採取的做法是，推出以大型語言模型為基礎的自動化攻擊者。這是一個以強化學習訓練而成的機器人，專門扮演駭客角色，嘗試找出將惡意指令偷偷植入 AI 代理的方法。

機器人先在模擬環境測試攻擊，模擬器會呈現目標 AI 在看到攻擊時的思考方式以及可能採取的行動。接著，機器人會分析目標 AI 回應、調整攻擊手法，反覆嘗試。由於外部人員無法取得目標 AI 的內部推理過程，理論上，OpenAI 的機器人能比真實世界的攻擊者更快找出漏洞。

「我們以強化學習訓練出來的攻擊者，能引導代理程式執行複雜、長時間的有害工作流程，可能涉及數十個甚至上百個步驟。」OpenAI 也表示，他們觀察到一些全新的攻擊策略，這些策略未曾出現在紅隊演練或外部報告中。