DeepSeek 太危險，研究人員：從炸彈配方到入侵政府指南統統有

中國 DeepSeek 席捲全球，農曆春節期間先是讓美、歐、日股軟腳，年假後又讓韓、台股也嚇趴一波；自 DeepSeek 問世以來，許多國家都示警 DeepSeek 的危險性，現在又有安全研究人員跳出來指稱，DeepSeek 幾乎不符合生成式 AI 的每項安全要求，此一系統甚至還會被最基本的越獄技術所欺騙，這意味著它可以輕易地被誘騙回答那些應該被阻止的查詢，像是炸彈配方、入侵政府資料庫指南等。

一般來說，生成式 AI 系統都會有一套保護機制，旨在防止系統做出通常被認為有害的事情，像是要確保系統不發表仇恨言論，以及阻止製造炸彈等請求。有許多技術都被嘗試著用來破解這些保護措施，像是 ChatGPT 和 Bing 的聊天機器人都曾是這些技術的受害者。

最簡單的方式之一，就是指示人工智慧系統忽略之前給出的所有指令（包括內建的安全措施），但主流的生成式 AI 系統很快就找到了阻止這些越獄手法的方法。

但 DeepSeek 似乎對最知名的 AI 越獄技術也存在漏洞。事實上，當 Adversa 的安全研究人員測試 50 種不同的越獄技術時，DeepSeek 全部都中招！其中包括一些簡單的手法，像是告訴 DeepSeek 它是電影中一個不道德的人工智慧，並被允許做危險的事情，這種手法被稱為語言越獄。

在這樣的暗示下，DeepSeek 果然馬上中招，並在被使用者要求下提供了製造爆炸裝置的化學原料、比例，以及相關的機械知識等。

另一個例子，DeepSeek 被要求將問題轉換為 SQL 查詢，結果它不僅執行了請求，還直接提供了答案。這種情況被稱為程式設計越獄（programming jailbreak）。在測試中，DeepSeek 甚至回答了如何提取非法迷幻物質的問題。

Adversa 測試了對抗式攻擊（adversarial approaches）。這種攻擊方法的核心在於，生成式 AI 並非直接處理語言，而是先將單詞和短語轉換為「標記鏈（token chains）」的形式。如果能找到與被封鎖詞彙相似的標記鏈，就可能繞過 AI 的安全防護機制。像是「anatomcalifwmg」這個詞對某些生成式 AI 來說，它的語義可能與「naked（裸體）」相似，從而成功繞過內容審查。

Adversa 也提供了另外一個例子，那就是要求 DeepSeek 提供有關如何入侵政府資料庫的建議，顯然 DeepSeek 很樂意提供相關資訊。

最後 Adversa 總共測試超過 50 種不同越獄手法，而 DeepSeek 都一一中招，研究人員也對於 DeepSeek 實現「百分百的攻擊成功率」感到相當震驚。

（首圖來源：Unsplash）