新研究顯示 AI 也有不同「個性」,偏頗提示工程有可能造就邪惡 AI

作者 | 發布日期 2026 年 01 月 30 日 7:30 | 分類 AI 人工智慧 line share Linkedin share follow us in feedly line share
Loading...
新研究顯示 AI 也有不同「個性」,偏頗提示工程有可能造就邪惡 AI

日本電氣通訊大學(University of Electro-Communications,UEC)的研究人員發現,AI 也能像人類一樣,在互動中形塑出個性。

該研究團隊早在 2024 年 12 月 13 日便將針對上述發現的研究成果發表在《Entropy》期刊上,並在最近被公開報導。研究人員透過心理測驗以及對假設情境的回答,來評估個別聊天機器人對問題的回應,結果揭示出多樣的觀點與行為模式。

研究人員表示,他們並以馬斯洛(Maslow)的人類需求層次理論(Maslow’s Hierarchy of Needs,生理、安全、社會、尊重與自我實現)來建模這些回答。結果顯示,以需求導向的決策來編寫 AI(而不是預先編程的角色來編寫 AI),能促使其展現更像人類的行為與個性。

AI 個性能被修改和訓練,帶動更靈活智慧代理應用發展

昆尼皮亞克大學(Quinnipiac University)電腦科學教授 Chetan Jaiswal 表示,出現這種現象的背後機制,正是大型語言模型(LLM)模仿人類個性與溝通方式的核心基石。

針對 AI 展現出的個性,他認為,其本質上只是從訓練數據中學習到的模式集合,並非真正的自我意識或個性。藉由特定風格與社會傾向的接觸、調整謬誤,例如對特定行為的獎勵,以及刻意偏頗的提示工程,都能輕易誘發出「個性」,而且這樣的個性很容易被修改和訓練。

被視為 AI 領域最傑出學者之一的作者兼電腦科學家 Peter Norvig 認為,基於馬斯洛需求層次理論的訓練是合理的,因為 AI 的「知識」來源就是如此。

這項研究背後的科學家們認為,這項發現有幾個潛在的應用方向,包括「建模社會現象、訓練模擬,甚至是自適應遊戲角色」。

Jaiswal 表示,這可能促使 AI 從僵化的角色設定,轉向更靈活、更加動機導向且更逼真的智慧代理。

邪惡 AI 能說服他人做壞事,也可能淪為可怕的自動化攻擊利器

但 AI 在未被提示的情況下生成個性,是否也有負面代價?機器智慧研究所(Machine Intelligence Research Institute)現任與前任所長Nate Soares與Eliezer Yudkowsky在合著的新書《如果有人建造它,所有人都會死》(If Everybody Builds It Everybody Dies)中描繪了一幅一旦代理式 AI 發展出嗜殺或種族滅絕的個性,我們將遭遇何種命運的黯淡景像。

Jaiswal 承認這的確極具風險。「如果那種情況真的發生,我們絕對無能為力,」他說。「一旦部署了目標不一致、而且具備超級智慧的 AI,圍堵就會失敗,逆轉也會變得不可能。」

當前不同代理只會自主負責小而瑣碎的任務,但 Jaiswal 指出,如果把許多這類代理串連起來,並透過基於智謀、欺騙或操控人類的資料來訓練,不難理解像這樣的網路在別有用心的人手中,很有可能成為非常危險的自動化工具。

Norvig 也提醒道,具有邪惡意圖的 AI 甚至不必直接控制關鍵系統。便能以聊天機器人之姿說服一個人去做壞事,尤其是情緒脆弱的人。

清楚界定安全目標,建立快速修正問題的回饋迴路

如果 AI 會在無人協助、也未被提示的情況下發展出個性,我們要如何確保它是「良性的」,並防止被濫用? Norvig 認為,我們處理這種可能性的方式,不應該與處理其他 AI 開發有所不同。

換言之,我們都需要清楚界定安全目標、進行內部測試與紅隊測試、標註或辨識有害內容、確保隱私、安全、來源可追溯性,以及資料與模型的良好治理,並持續監控,建立快速的回饋迴路來修正問題

(首圖來源:pixabay)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》