新研究顯示 AI 也有不同「個性」，偏頗提示工程有可能造就邪惡 AI

日本電氣通訊大學（University of Electro-Communications，UEC）的研究人員發現，AI 也能像人類一樣，在互動中形塑出個性。

該研究團隊早在 2024 年 12 月 13 日便將針對上述發現的研究成果發表在《Entropy》期刊上，並在最近被公開報導。研究人員透過心理測驗以及對假設情境的回答，來評估個別聊天機器人對問題的回應，結果揭示出多樣的觀點與行為模式。

研究人員表示，他們並以馬斯洛（Maslow）的人類需求層次理論（Maslow’s Hierarchy of Needs，生理、安全、社會、尊重與自我實現）來建模這些回答。結果顯示，以需求導向的決策來編寫 AI（而不是預先編程的角色來編寫 AI），能促使其展現更像人類的行為與個性。

AI 個性能被修改和訓練，帶動更靈活智慧代理應用發展

昆尼皮亞克大學（Quinnipiac University）電腦科學教授 Chetan Jaiswal 表示，出現這種現象的背後機制，正是大型語言模型（LLM）模仿人類個性與溝通方式的核心基石。

針對 AI 展現出的個性，他認為，其本質上只是從訓練數據中學習到的模式集合，並非真正的自我意識或個性。藉由特定風格與社會傾向的接觸、調整謬誤，例如對特定行為的獎勵，以及刻意偏頗的提示工程，都能輕易誘發出「個性」，而且這樣的個性很容易被修改和訓練。

被視為 AI 領域最傑出學者之一的作者兼電腦科學家 Peter Norvig 認為，基於馬斯洛需求層次理論的訓練是合理的，因為 AI 的「知識」來源就是如此。

這項研究背後的科學家們認為，這項發現有幾個潛在的應用方向，包括「建模社會現象、訓練模擬，甚至是自適應遊戲角色」。

Jaiswal 表示，這可能促使 AI 從僵化的角色設定，轉向更靈活、更加動機導向且更逼真的智慧代理。

邪惡 AI 能說服他人做壞事，也可能淪為可怕的自動化攻擊利器

但 AI 在未被提示的情況下生成個性，是否也有負面代價？機器智慧研究所（Machine Intelligence Research Institute）現任與前任所長Nate Soares與Eliezer Yudkowsky在合著的新書《如果有人建造它，所有人都會死》（If Everybody Builds It Everybody Dies）中描繪了一幅一旦代理式 AI 發展出嗜殺或種族滅絕的個性，我們將遭遇何種命運的黯淡景像。

Jaiswal 承認這的確極具風險。「如果那種情況真的發生，我們絕對無能為力，」他說。「一旦部署了目標不一致、而且具備超級智慧的 AI，圍堵就會失敗，逆轉也會變得不可能。」

當前不同代理只會自主負責小而瑣碎的任務，但 Jaiswal 指出，如果把許多這類代理串連起來，並透過基於智謀、欺騙或操控人類的資料來訓練，不難理解像這樣的網路在別有用心的人手中，很有可能成為非常危險的自動化工具。

Norvig 也提醒道，具有邪惡意圖的 AI 甚至不必直接控制關鍵系統。便能以聊天機器人之姿說服一個人去做壞事，尤其是情緒脆弱的人。