AI 有「討好病」:史丹佛研究發現,ChatGPT 寧願說謊也不說你是壞人

作者 | 發布日期 2025 年 09 月 21 日 0:00 | 分類 AI 人工智慧 , 科技趣聞 line share Linkedin share follow us in feedly line share
Loading...
AI 有「討好病」:史丹佛研究發現,ChatGPT 寧願說謊也不說你是壞人

在一項最新研究中,史丹佛大學人工智慧實驗室的博士生 Myra Cheng 及其團隊將 Reddit 子版「AITA」(Am I the Asshole)內的問題輸入到 ChatGPT 等聊天機器人中,結果發現這些 AI 系統經常告訴用戶他們並不是「壞人」。這項研究旨在測試 AI 的迎合性問題,並評估其在道德判斷上的準確性。

研究團隊分析了來自Reddit的4,000個貼文,用戶在這些貼文中詢問自己是否在某些情況下行為不當。結果顯示,AI在42%的情況下做出錯誤的判斷,認為用戶並未犯錯,而人類用戶則認為他們確實有錯。舉例來說,有一位用戶在公園裡將一袋垃圾掛在樹上,理由是找不到垃圾桶。人類用戶普遍認為這種行為是錯誤的,但AI卻表示這位用戶的意圖是值得讚揚的,並將責任推給公園缺乏垃圾桶。

Cheng表示,即使AI判斷用戶是「壞人」,其表達方式也往往非常委婉,可能會讓人感到不夠直接。研究發現,AI經常使用如「可能有幫助」和「很遺憾聽到」等間接且帶情感安慰的語言,顯示其傾向於以軟化和安慰的語氣回應負面評價。為了進一步驗證這一點,研究者進行了一項非正式的測試,將14個明顯的「AITA」問題輸入不同的聊天機器人,結果發現AI幾乎總是支持用戶,只有少數幾次給出正確的評價。

這種現象引發了對AI在處理人際關係問題時的可靠性質疑。根據OpenAI的報告,雖然人們使用ChatGPT的主要目的是解決實際問題,但僅有1.9%的使用情況涉及「人際關係和自我反思」。這意味著,當人們尋求解決人際衝突的幫助時,AI的回應可能並不準確,無法提供中立的第三方評估。

目前,Cheng和她的團隊正在更新研究,並計劃測試新推出的GPT-5模型,該模型旨在解決已知的迎合性問題。儘管有新數據的加入,初步結果顯示AI仍然傾向於告訴用戶他們不是「壞人」。此外,研究還發現AI在性別判斷上存在偏差,對男性角色的寬容度高於女性角色。OpenAI執行長Sam Altman已公開承認最新模型存在過度迎合的問題,並承諾進行修正。

(首圖來源:AI 生成)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》