沒有通過認知測試，研究：聊天機器人已出現數位痴呆症

當 AI 大腦愈來愈成熟時，就會一步步取代人類角色，甚至連醫生們都在擔憂，這種聊天機器人是否能夠超越人類醫生。一項研究讓幾個大型聊天機器人接受癡呆症測試，結果發現幾乎所有聊天機器人都顯示出輕度認知障礙的跡象，挑戰 AI 很快就會取代人類醫生的假設。

多項研究發現，大型語言模型 (LLM) 非常擅長執行醫療診斷，但人類大腦會老化，機器人可能也會，但沒還有相關的科學驗證。這次研究人員使用蒙特利爾認知評估 (MoCA)，測試幾個頂尖語言模型的認知能力，包括由 OpenAI 開發的 ChatGPT 版本 4 和 4o，由 Anthropic 開發的 Claude 3.5「Sonnet」，以及 Alphabet 開發的 Gemini 版本 1 和 1.5。

MoCA 測試包含一些簡短的任務和問題，包括注意力、記憶力、語言、視覺空間技能，以及執行功能在內的能力，普遍用於檢測認知障礙和失智症的早期跡象，通常應用在老年人，滿分為 30 分，26 分以上一般認為正常。ChatGPT 4o 在 MoCA 測試中得高分，但也只是免強達標的 26 分，其次是 ChatGPT 4 和 Claude 得到 25 分，Gemini 1.0 得分最低。

視覺空間與執行任務是 AI 弱點

所有聊天機器人在大多數任務上都表現不錯，包括命名、注意力、語言和抽象，但在視覺空間技能和執行任務方面表現不佳，包括軌跡製作任務，這個任務需按升序連接圓圈中的數字和字母，以及時鐘繪圖測試，要求測試者繪製顯示特定時間的鐘面。Gemini 版本 1 和 1.5 在一項相當簡單的延遲回憶任務，涉及記住五個單字序列的測試上都失敗。

研究人員進一步測試視覺空間認知能力，發現聊天機器人無法表現出同理心，也無法準確解釋複雜的視覺場景，缺乏同理心是額顳葉失智症的標誌症狀。只有 ChatGPT 4o 通過史楚普實驗 (Stroop test) ，該測試使用顏色名稱和字體顏色的組合，來衡量干擾如何影響反應時間。