AI 是太過自信的朋友，卻不會從錯誤汲取教訓

卡內基美隆大學研究員將大型語言模型（LLM）聊天機器人比擬為「自信滿滿卻老是投籃不中的朋友」，因 AI 模型回答錯誤卻會更自信。主要作者特倫特·卡什（Trent Cash）說，當人預測自己能正確回答 18 個問題只答對 15 題時，信心通常稍微降低，調整為 16 題回答正確，但 LLM 卻傾向表現不佳時仍保持甚至增加自信。

AI快速發展，模型用於各種產品，專家意見變得隨處可見。但實際使用卻因「AI幻覺」大打折扣，AI答案往往與現實相去甚遠。共同作者丹尼·歐本海默（Danny Oppenheimer）指出，當AI回答看似可疑的答案，使用者可能會因AI充滿自信而不會複查，即使AI的自信毫無根據。

研究員以主流商業LLM：OpenAI ChatGPT、Google Gemini、Anthropic Claude Sonnet / Claude Haiku，預測美國NFL和奧斯卡得獎者，答對率頗低；玩猜畫遊戲Pictionary時，Gemini 20次嘗試平均猜對不到一次，卻對自己表現之差毫無自覺。

倫敦大學學院人工智慧與教育批判研究教授韋恩·霍姆斯（Wayne Holmes）指出，AI工具的問題可能很難解決，因錯誤資訊和偏差是電腦運作的特徵。卡什則認為，若LLM會反思並認知錯誤，就能解決許多問題，儘管他並未提供實際建議。

論文刊登於《記憶與認知》期刊。Anthropic、Google和OpenAI截至發稿時都未發表評論。

（首圖來源：shutterstock）