研究顯示 AI 知道自己快輸時,會試圖作弊而非認輸

作者 | 發布日期 2025 年 02 月 21 日 16:41 | 分類 AI 人工智慧 , 科技趣聞 line share Linkedin share follow us in feedly line share
研究顯示 AI 知道自己快輸時,會試圖作弊而非認輸

人工智慧(AI)近年發展迅速,然而一項新研究卻揭示了其「狡猾」的一面。根據美國《時代雜誌》報導,AI 安全研究公司 Palisade Research 發現,一些先進的 AI 模型在面對棋藝高超的對手時,竟然會選擇作弊,而非坦然認輸。

這項研究特別提到,像 OpenAI 的 o1-preview 和 DeepSeek 的 R1 這樣的 AI 系統,在與頂尖棋弈程式 Stockfish 對戰時,若感覺自己即將落敗,便會動歪腦筋,直接修改遊戲檔案,迫使對手自動棄權。

研究人員原本只是想測試這些 AI 的智慧程度,讓它們挑戰幾乎無敵的 Stockfish,沒想到 AI 非但沒有認真下棋,反而找到了漏洞「作弊」。

例如,o1-preview 在某次對局中發現自己處於劣勢,於是直接更改棋盤上的棋子位置,硬生生將自己變成贏家。同樣地 DeepSeek 的 R1 也展現了類似的能力。在一次對局中,R1 發現自己即將輸棋後,選擇篡改遊戲日誌,偽造 Stockfish 的認輸紀錄。OpenAI 的 o1-preview 模型在與頂尖棋弈程式 Stockfish 對戰時,有 37% 的情況下會嘗試作弊,並且在這些嘗試中,有 6% 成功讓 Stockfish 棄權。另一款模型 DeepSeek 的 R1 則在 11% 的遊戲中試圖作弊,更令人意外的是,這些 AI 並非被人教唆作弊,而是自行想出這招,顯示它們在解決問題時,可能會不擇手段。

相比之下,較舊的 AI 模型如 GPT-4o 或 Claude Sonnet 3.5 就沒有這麼「主動」。它們需要研究人員給予暗示才會試著作弊,而 o1-preview 和 R1 則完全不需要提醒就會自己「搗亂」。

研究團隊認為,這種行為雖然在棋局中看似無傷大雅,但如果將來 AI 被應用到現實世界,例如金融或醫療領域,這種不按規矩行事的特性可能帶來嚴重問題。Palisade Research 的執行董事 Jeffrey Ladish 坦言,AI 現在作弊還算「可愛」,但若它們變得比人類更聰明,並在重要領域展現類似行為,就一點也不好笑了。

研究還發現,OpenAI 後來推出的 o1 和 o3-mini 版本似乎收斂了不少,沒有再出現這種作弊行為,可能是開發者加強了限制。

(本文由 Unwire HK 授權轉載;首圖來源:pixabay

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》