AI 系統可以撰寫文章、回答問題並解決複雜問題。但最新研究顯示,AI 可能難以應對人類每天都在做的事情,他們很難在受到干擾時長期保持專注。
斯特魯普任務是一項經典的心理測試,幾十年來一直被用於研究注意力、專注力和自我控制能力。測試中,諸如紅色、藍色或綠色之類的顏色詞,會用不同顏色的墨水顯示。有時詞語和墨水顏色一致。例如,紅色這個詞就用紅色墨水顯示。有時又會不一致,例如,紅色這個詞,可能是藍色墨水寫的。
排除慣性測試專注力
參與者需要說出墨水的顏色,這聽起來很簡單,但實際上卻很有挑戰性,因為對大多數人來說,閱讀文字是一種自動習慣,測試中大腦必須抑制閱讀文字的衝動,專注辨識墨水的顏色。
心理學家經常使用這項任務來衡量所謂的執行控制能力,執行控制能力是一系列心理過程,可以幫助人們調節注意力、抵抗干擾並專注於目標。研究人員想看看現代大型語言模型 (LLM) 是否能以與人類相同的方式應對這項挑戰。
研究團隊對幾種 AI 模型進行實驗,結果顯示,AI 系統處理資訊的方式,與人腦管理注意力的方式明顯不同。當給定五個顏色詞的短列表時,即使詞語和顏色不匹配,AI 系統通常表現良好。但是隨著名單越來越長,情況發生巨大變化。
測試時間愈長 AI 準確率愈低
GPT-4o 在處理五個單字時達到 91% 的準確率。當單字數量增加到 10 個時,準確率下降到 57%。當單字數擴展到 40 個時,準確率更是跌至 15%。
Claude 3.5 Sonnet 在 20 個單字的清單中保持穩定的效能,但隨後出現急劇下降,在 40 個單字的清單中準確率降至 24%。GPT-5、Claude Opus 4.1 和 Gemini 2.5 也出現類似模式。
AI 無法應對複雜情境
而當匹配和不匹配的顏色詞同時出現在同一個列表中時,AI 表現更混亂。在某些情況下,準確率幾乎降至零。研究人員表示,AI 模型難以記住識別墨水顏色的指令,它們漸漸會選擇直接讀取文字本身。
研究人員表示,這項發現很有趣,因為人類也會這樣,人們通常更擅長閱讀單字,但是大多數人即使面對長長的、包含相互衝突的單字和顏色列表,也能保持較高的準確率和穩定的表現。
這樣研究顯示,即使最強大的 AI 系統也有他的弱點,它們的底層機制與生物大腦中的注意力過程有所不同。人類通常能夠專注特定目標,同時過濾掉干擾訊息。但對 AI 來說,當任務難度不斷增加,目前的模型可能難以勝任這種認知控制。
認知控制能力需加強
持續注意力方面表現不好,可能導致冗長資料分析中的錯誤、對話式 AI 問答偏誤,或需要持續監控的系統故障。因此,未來 AI 發展必須優先考慮增強認知控制和穩健性的機制,可能需要從神經科學中汲取靈感,或探索全新的架構範式。
現在 AI 模型的架構創新著重增強記憶能力,但這沒有解決注意力機制的核心局限性,特別是需要複雜的警報、定向和執行控制網路來實現認知靈活性。研究人員表示,未來系統不能只依賴強大記憶力,而是透過結構化、目標導向的路徑,來處理決策衝突。作者認為,將類似生物注意力的執行控制機制融入 AI 中,是實現通用 AI 的關鍵一步。該研究刊登在《美國國家科學院院刊》(PNAS) 的官方姊妹刊 PNAS Nexus。
- A classic brain test exposed AI’s biggest weakness
- ‘New study reveals top AI models completely fail classic ‘Stroop’ psychological attention test’: a fundamental flaw in AI thinking exposed?
(首圖來源:pixabay)






