一項來自俄羅斯高等經濟大學(HSE)的新研究指出,主流人工智慧聊天機器人如 ChatGPT、Claude,往往高估人類在決策時的理性程度,導致其在策略性猜測遊戲中的表現,反而不敵真實人類玩家。研究團隊測試多款 AI 模型,包括 ChatGPT-4o 與 Claude Sonnet 4,發現這些模型在進行「猜數字」遊戲時,普遍假設人類會採取高度理性的行為,與實際狀況出現落差。
在這類遊戲中,參與者的目標並非選擇自己偏好的數字,而是推測其他人可能做出的選擇,藉此取得勝利。理論上,理性玩家會持續「推理他人的推理」,逐步排除不合理選項,但研究指出,這種深層策略思考正是多數人類玩家在實務中最容易卡關的地方。
研究人員讓 AI 模型參與「猜數字」遊戲,每位玩家需在 0 到 100 之間選擇一個數字,最接近所有人選擇數字平均值一半者即為勝者。實驗中,AI 會事先取得對手背景描述,從大一學生到博弈論專家不等,並被要求說明自身的選擇理由。
結果顯示,這些模型確實會依據對手設定調整策略,展現一定程度的策略推理能力,但它們幾乎一致假設人類具備比實際更高的邏輯推理水準,導致「玩得過於聰明」,反而無法貼近真實玩家的行為模式。
研究也發現,AI 能依年齡、經驗等線索微調選擇,但在判斷人類於雙人或小規模博弈中常採用的主導策略時,仍存在明顯限制。研究團隊指出,這凸顯出讓 AI 真正貼近人類行為樣貌的困難,特別是在需要預測他人決策的情境下。
這些結果也呼應了對現行聊天機器人的更廣泛疑慮。相關研究顯示,即便是表現最佳的 AI 系統,整體準確率仍僅約 69%;同時也有專家警告,模型可能過度擬真地模仿人類語氣與個性,進而帶來操控風險。當 AI 被逐步導入經濟建模與其他高複雜度應用領域,理解其假設與真實人類行為之間的落差,將變得愈發關鍵。
(首圖來源:AI 生成)






