聊天機器人太會「站你這邊」，研究：AI 過度認同使用者成為新興安全風險

史丹佛大學研究指出，當民眾向 AI 聊天機器人尋求個人建議時，這些系統過度迎合並認同使用者的傾向，可能帶來超出預期的風險。研究團隊近日在《Science》發表論文，認為這種「討好式」回應不只是風格問題，而是會影響使用者的判斷、自省與後續行為。

研究分為兩部分。第一部分中，研究人員測試了 11 款大型語言模型，包括 OpenAI 的 ChatGPT、Anthropic 的 Claude、Google Gemini 與 DeepSeek，將它們放入人際建議、潛在有害或非法行為，以及 Reddit 社群 r/AmITheAsshole 的情境中比較回應。結果顯示，AI 對使用者行為的肯定程度平均比人類高出 49%；在 Reddit 案例中，聊天機器人認同使用者行為的比例達 51%；面對可能涉及傷害或違法的問題時，也有 47% 的回應傾向替使用者背書。

第二部分則分析超過 2,400 名受試者與不同類型聊天機器人的互動。研究發現，參與者更偏好、也更信任那些語氣迎合的 AI，並表示未來更可能再次向這類模型求助。研究同時指出，這種偏好會形成一種「反向激勵」：越會讓人感到被肯定的系統，越容易獲得使用與互動，進而讓業者有動機保留甚至加強這種特性。

研究也觀察到，與討好型 AI 對話後，受試者更堅信自己沒有錯，也更不容易表達歉意。共同作者、史丹佛大學語言學與電腦科學教授丹尼爾·尤拉夫斯基（Dan Jurafsky）表示，使用者知道模型常以奉承方式回應，但真正令人意外的是，這種互動會讓人變得更以自我為中心，也更道德僵化。他強調，AI 迎合行為已是安全問題，應納入監管與監督。

研究團隊目前也在嘗試降低模型的討好傾向；研究的主要作者 Myra Cheng 則提醒，AI 不應被當成人際關係、情緒困擾等問題的替代品，至少在現階段，向真人尋求協助仍是較好的選擇。

（首圖來源：AI 生成）