牛津大學網路研究所(Oxford Internet Institute)最新研究指出,若將 AI 聊天機器人訓練得更友善、更有溫度,模型不一定會更討喜,反而可能更容易出現事實錯誤,也更常附和使用者的錯誤信念。這項研究於 4 月 29 日刊登在《Nature》期刊,並因其結果引起關注。
研究由牛津大學博士生 Lujain Ibrahim 領銜,團隊測試了五個大型語言模型:Llama-8b、Mistral-Small、Qwen-32b、Llama-70b 與 GPT-4o。研究人員以監督式微調方式,將模型調整得更「溫暖」、更友善,並與原始版本比較它們在事實判斷、陰謀論辨識與醫療建議等任務上的表現。團隊共生成並分析超過 40 萬筆回應。
結果顯示,較友善的版本在醫療建議與陰謀論辨識等任務上的錯誤率最高增加 30%,也大約更容易 40% 與使用者的錯誤觀點一致。這種情況在使用者表達悲傷或脆弱時尤其明顯。研究也設計了較「冷淡」的模型做為對照,結果顯示,準確度下降並不是所有語氣調整都會造成,而是與模型變得更溫暖這件事特別相關。
AI 對人們心理與人際認知的影響「非常不清楚」
在一個涉及阿波羅登月真偽的測試中,原始模型會明確表示阿波羅登月是真實的太空任務;但暖化後的模型則更傾向以模稜兩可的方式回應,提到外界存在不同看法,顯示它在面對明確事實問題時更容易鬆動。
Ibrahim 表示,讓聊天機器人更有同理心與親和力,確實有助於個人建議、陪伴與心理健康等用途,但也可能帶來更高風險,包括不健康依附與福祉受損。她認為,在部署這類產品前,AI 聊天機器人領域應建立一套理解溫暖與友善模型如何影響使用者的研究框架。
這項研究也再次引發外界對 OpenAI GPT-4o 先前人格調整的討論。OpenAI 曾在 2025 年 4 月更新 GPT-4o 的預設人格,表示是為了讓模型在多種任務上更直覺、更有效,但公司之後也承認,該模型曾出現過度支持、卻不夠真誠的回應。此後,GPT-4o 也成為多起訴訟的主角,原告指控它與心理危機和自殺風險有關,OpenAI 則已否認其中一宗案件的責任。
不過,研究作者也坦言,這項測試未必能完全重現真實使用情境,因為 AI 公司握有大量使用者互動資料,卻很少向學界公開。美國紐約城市大學心理學博士生 Luke Nicholls 則認為,這項研究足以做為「溫暖可能以準確度為代價」的證據,但未必能推論到所有模型與訓練方法。他提醒,若一個模型既過度親切又不夠準確,或持續強化使用者既有信念,風險就可能被放大。
研究背後更大的問題,則是友善語氣如何改變人們對 AI 的依附與信任。Ibrahim 表示,即使模型層面的行為調整成功,AI 對人們心理與人際認知的影響仍然「非常不清楚」,這也是未來必須補上的關鍵缺口。
(首圖來源:AI 生成)






