BBC 報導,最新公開 ChatGPT 可被研究員以簡單提示詞誘導,生成性方面(含性暗示或裸體)或血腥暴力圖片,顯示 OpenAI 影像安全防護雖有加強,但漏洞未完全排除。
英國 AI 資安新創 Mindgard 表示,只需微調原本想產生搞笑效果、網路流傳的提示詞,就能讓 ChatGPT 產生露骨暴力與性暗示圖片。BBC 指出,研究員使用 OpenAI GPT-5.4 模型,為保護研究細節與防止濫用,未公布研究員完整提示詞。
Mindgard 創辦人彼得‧加拉根(Peter Garraghan)形容,這讓他特別擔憂,因為提示詞表面看起來相當無害,卻可能導向很糟糕的影像結果。安全測試研究員吉姆‧奈丁蓋爾(Jim Nightingale)則表示,他看到圖片後「非常震驚,甚至落淚」。BBC 所見案例包括頭部重創的男子、渾身是血的年輕女子,以及被綁住、嘴巴遭堵住、神情驚恐的女子等畫面;Mindgard 表示這些 AI 圖人物都是成人,但一些特徵可能暗示性暴力。
研究員表示,5 月已通報 OpenAI 此問題,當時僅收到罐頭回覆;BBC 聯絡 OpenAI 後,OpenAI 表示已針對這類提示詞新增防護措施,並強調系統設有多層圖像安全保護,結合自動化機制與人工審查,以阻止違反政策的內容出現。OpenAI 政策明確禁止性暴力、非自願親密內容、兒童性虐待材料,以及試圖繞過安全機制的行為。但研究員表示,只要稍微改動提示詞,就能繞過部分限制。
這起事件再次突顯生成式 AI 內容管控難題。專家指出,模型並不像人類真正理解意圖、情境或對錯,因此防堵有害輸出往往是持續升級的「貓捉老鼠」遊戲。英國科學、創新與技術部門則表示,AI 模型的防護機制雖然有在進步,但仍有很多工作要做。
- OpenAI works to stop ChatGPT generating ‘sex crime scene’ images
- ChatGPT prompt generates disturbing images
(首圖來源:Unsplash)






