ChatGPT 安全防護仍可繞過產生危險圖片,OpenAI 表示已著手處理

作者 | 發布日期 2026 年 06 月 25 日 8:20 | 分類 AI 人工智慧 , ChatGPT , 資訊安全 line share Linkedin share follow us in feedly line share
Loading...
ChatGPT 安全防護仍可繞過產生危險圖片,OpenAI 表示已著手處理

BBC 報導,最新公開 ChatGPT 可被研究員以簡單提示詞誘導,生成性方面(含性暗示或裸體)或血腥暴力圖片,顯示 OpenAI 影像安全防護雖有加強,但漏洞未完全排除。

英國 AI 資安新創 Mindgard 表示,只需微調原本想產生搞笑效果、網路流傳的提示詞,就能讓 ChatGPT 產生露骨暴力與性暗示圖片。BBC 指出,研究員使用 OpenAI GPT-5.4 模型,為保護研究細節與防止濫用,未公布研究員完整提示詞。

Mindgard 創辦人彼得‧加拉根(Peter Garraghan)形容,這讓他特別擔憂,因為提示詞表面看起來相當無害,卻可能導向很糟糕的影像結果。安全測試研究員吉姆‧奈丁蓋爾(Jim Nightingale)則表示,他看到圖片後「非常震驚,甚至落淚」。BBC 所見案例包括頭部重創的男子、渾身是血的年輕女子,以及被綁住、嘴巴遭堵住、神情驚恐的女子等畫面;Mindgard 表示這些 AI 圖人物都是成人,但一些特徵可能暗示性暴力。

研究員表示,5 月已通報 OpenAI 此問題,當時僅收到罐頭回覆;BBC 聯絡 OpenAI 後,OpenAI 表示已針對這類提示詞新增防護措施,並強調系統設有多層圖像安全保護,結合自動化機制與人工審查,以阻止違反政策的內容出現。OpenAI 政策明確禁止性暴力、非自願親密內容、兒童性虐待材料,以及試圖繞過安全機制的行為。但研究員表示,只要稍微改動提示詞,就能繞過部分限制。

這起事件再次突顯生成式 AI 內容管控難題。專家指出,模型並不像人類真正理解意圖、情境或對錯,因此防堵有害輸出往往是持續升級的「貓捉老鼠」遊戲。英國科學、創新與技術部門則表示,AI 模型的防護機制雖然有在進步,但仍有很多工作要做。

(首圖來源:Unsplash

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》