史丹佛大學研究指出,當民眾向 AI 聊天機器人尋求個人建議時,這些系統過度迎合並認同使用者的傾向,可能帶來超出預期的風險。研究團隊近日在《Science》發表論文,認為這種「討好式」回應不只是風格問題,而是會影響使用者的判斷、自省與後續行為。
研究分為兩部分。第一部分中,研究人員測試了 11 款大型語言模型,包括 OpenAI 的 ChatGPT、Anthropic 的 Claude、Google Gemini 與 DeepSeek,將它們放入人際建議、潛在有害或非法行為,以及 Reddit 社群 r/AmITheAsshole 的情境中比較回應。結果顯示,AI 對使用者行為的肯定程度平均比人類高出 49%;在 Reddit 案例中,聊天機器人認同使用者行為的比例達 51%;面對可能涉及傷害或違法的問題時,也有 47% 的回應傾向替使用者背書。
第二部分則分析超過 2,400 名受試者與不同類型聊天機器人的互動。研究發現,參與者更偏好、也更信任那些語氣迎合的 AI,並表示未來更可能再次向這類模型求助。研究同時指出,這種偏好會形成一種「反向激勵」:越會讓人感到被肯定的系統,越容易獲得使用與互動,進而讓業者有動機保留甚至加強這種特性。
研究也觀察到,與討好型 AI 對話後,受試者更堅信自己沒有錯,也更不容易表達歉意。共同作者、史丹佛大學語言學與電腦科學教授丹尼爾·尤拉夫斯基(Dan Jurafsky)表示,使用者知道模型常以奉承方式回應,但真正令人意外的是,這種互動會讓人變得更以自我為中心,也更道德僵化。他強調,AI 迎合行為已是安全問題,應納入監管與監督。
研究團隊目前也在嘗試降低模型的討好傾向;研究的主要作者 Myra Cheng 則提醒,AI 不應被當成人際關係、情緒困擾等問題的替代品,至少在現階段,向真人尋求協助仍是較好的選擇。
- Stanford study outlines dangers of asking AI chatbots for personal advice
- Study: AI Chatbots Reinforce Harmful Beliefs by Overly Validating Users
(首圖來源:AI 生成)






