沒有通過認知測試,研究:聊天機器人已出現數位痴呆症

作者 | 發布日期 2024 年 12 月 25 日 13:38 | 分類 AI 人工智慧 line share Linkedin share follow us in feedly line share
沒有通過認知測試,研究:聊天機器人已出現數位痴呆症

AI 大腦愈來愈成熟時,就會一步步取代人類角色 ,甚至連醫生們都在擔憂,這種聊天機器人是否能夠超越人類醫生。一項研究讓幾個大型聊天機器人接受癡呆症測試,結果發現幾乎所有聊天機器人都顯示出輕度認知障礙的跡象挑戰 AI 很快就會取代人類醫生的假設。

多項研究發現,大型語言模型 (LLM) 非常擅長執行醫療診斷,但人類大腦會老化,機器人可能也會,但沒還有相關的科學驗證。這次研究人員使用蒙特利爾認知評估 (MoCA),測試幾個頂尖語言模型的認知能力,包括由 OpenAI 開發的 ChatGPT 版本 4 4o,由 Anthropic 開發的 Claude 3.5Sonnet」,以及 Alphabet 開發的 Gemini 版本 1 1.5

MoCA 測試包含一些簡短的任務和問題,包括注意力、記憶力、語言、視覺空間技能,以及執行功能在內的能力,普遍用於檢測認知障礙和失智症的早期跡象,通常應用在老年人,滿分為 30 分,26 分以上一般認為正常。ChatGPT 4o MoCA 測試中得高分,但也只是免強達標的 26 分,其次是 ChatGPT 4 Claude 得到 25 分,Gemini 1.0 得分最低。

視覺空間與執行任務是 AI 弱點

所有聊天機器人在大多數任務上都表現不錯,包括命名、注意力、語言和抽象,但在視覺空間技能和執行任務方面表現不佳,包括軌跡製作任務,這個任務需按升序連接圓圈中的數字和字母,以及時鐘繪圖測試,要求測試者繪製顯示特定時間的鐘面。Gemini 版本 1 1.5 在一項相當簡單的延遲回憶任務,涉及記住五個單字序列的測試上都失敗。

研究人員進一步測試視覺空間認知能力,發現聊天機器人無法表現出同理心,也無法準確解釋複雜的視覺場景,缺乏同理心是額顳葉失智症的標誌症狀。只有 ChatGPT 4o 通過史楚普實驗 (Stroop test) ,該測試使用顏色名稱和字體顏色的組合,來衡量干擾如何影響反應時間。

AI 無法從事醫學診斷

研究作者表示,舊版本的聊天機器人就像老年患者一樣,在測試中往往表現較差,這些發現挑戰 AI 將很快取代人類醫生的假設。至於所有大型語言模型在需要視覺抽象和執行功能的任務中都失敗,凸顯聊天機器人的重大弱點,可能會阻礙它們在臨床環境中的使用。

這項工作的目的不是對這些 AI 進行醫學診斷,而是駁回一波研究浪潮,這些研究認為,該技術足以用於醫療領域,特別是作為診斷工具

聊天機器人中明顯的認知障礙可能會影響醫療診斷的可靠性並降低患者的信心,研究結論是,至少目前所見,醫生不太可能被大型語言模型取代。該研究已刊登在《英國醫學雜誌》。

(首圖來源:pixabay)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》