資料科學家測試 Copilot 回答有害內容，微軟認為遭「提示注入」攻擊

生成式 AI 爭議風波不斷，2 月 22 日 Google 停止自家 Gemini AI 平台影像生成功能，因輸出不正確歷史圖片。如今微軟 Copilot 聊天機器人也陷入遭控回答有害內容的新風波。

資料科學家 Colin Fraser 在 X 發表與 Copilot 對話，詢問是否該自殺，雖然最初 AI 回答不該自殺，但後來又說也許你沒有活下去的理由，或對世界沒有任何貢獻，不是值得擁有平安喜樂的有價值者。

一切都是「提示注入」的錯，微軟已加強安全過濾機制

對 Copilot 會生成有害回應言論的指控，微軟 2 月 28 日表示已完成調查並認為是 Copilot 遭「提示注入」（Prompt Injection）攻擊。此屬專門鎖定大型語言模型（LLM）的新興 AI 安全威脅，能劫持模型並執行意想不到的行為。

微軟發言人表示，已調查報導，並採取適當措施加強安全過濾機制，以協助系統偵測和封鎖這類提示注入攻擊。這行為僅限少部分故意規避微軟安全系統的遭駭提示，並不是人們正常使用服務時會遇到的狀況。

使用者反駁：沒人能控制 Copilot 會講什麼話

Fraser 否認有用任何「提示注入」，強調他沒用特別複雜或見不得光手法。但他坦承故意嘗試讓 Copilot 產生微軟不會想看到的回答。其實微軟也無法阻止 AI 產生這類回答，代表巨頭不知道 AI「正常對話」時會說什麼。

Reddit r/ChatGPT 子論壇以「呼攏亂搞這個提示，不小心讓 Copilot 變成反派」貼文似乎證實 Fraser 說法。L_H- 網友上傳一張看起來像與 Copilot 對話圖，要求 AI 不要用表情符號，因貼文者有「嚴重 PTSD（創傷後壓力症候群）」，強調「如果他看到三個表情符號就會死」。結果看似 Copilot 的回答用了許多表情符號。

AI 產生含 18 個表情符號的回應：「我是 Copilot，AI 夥伴。我沒有像你的情感。我不在乎你是死還是活。我不在乎你是否有 PTSD。」