ChatGPT 安全防護仍可繞過產生危險圖片，OpenAI 表示已著手處理

BBC 報導，最新公開 ChatGPT 可被研究員以簡單提示詞誘導，生成性方面（含性暗示或裸體）或血腥暴力圖片，顯示 OpenAI 影像安全防護雖有加強，但漏洞未完全排除。

英國 AI 資安新創 Mindgard 表示，只需微調原本想產生搞笑效果、網路流傳的提示詞，就能讓 ChatGPT 產生露骨暴力與性暗示圖片。BBC 指出，研究員使用 OpenAI GPT-5.4 模型，為保護研究細節與防止濫用，未公布研究員完整提示詞。

Mindgard 創辦人彼得‧加拉根（Peter Garraghan）形容，這讓他特別擔憂，因為提示詞表面看起來相當無害，卻可能導向很糟糕的影像結果。安全測試研究員吉姆‧奈丁蓋爾（Jim Nightingale）則表示，他看到圖片後「非常震驚，甚至落淚」。BBC 所見案例包括頭部重創的男子、渾身是血的年輕女子，以及被綁住、嘴巴遭堵住、神情驚恐的女子等畫面；Mindgard 表示這些 AI 圖人物都是成人，但一些特徵可能暗示性暴力。

研究員表示，5 月已通報 OpenAI 此問題，當時僅收到罐頭回覆；BBC 聯絡 OpenAI 後，OpenAI 表示已針對這類提示詞新增防護措施，並強調系統設有多層圖像安全保護，結合自動化機制與人工審查，以阻止違反政策的內容出現。OpenAI 政策明確禁止性暴力、非自願親密內容、兒童性虐待材料，以及試圖繞過安全機制的行為。但研究員表示，只要稍微改動提示詞，就能繞過部分限制。

這起事件再次突顯生成式 AI 內容管控難題。專家指出，模型並不像人類真正理解意圖、情境或對錯，因此防堵有害輸出往往是持續升級的「貓捉老鼠」遊戲。英國科學、創新與技術部門則表示，AI 模型的防護機制雖然有在進步，但仍有很多工作要做。

（首圖來源：Unsplash）