頂尖 AI 也有弱點，長時間專注力任務不及格

AI 系統可以撰寫文章、回答問題並解決複雜問題。但最新研究顯示，AI 可能難以應對人類每天都在做的事情，他們很難在受到干擾時長期保持專注。

斯特魯普任務是一項經典的心理測試，幾十年來一直被用於研究注意力、專注力和自我控制能力。測試中，諸如紅色、藍色或綠色之類的顏色詞，會用不同顏色的墨水顯示。有時詞語和墨水顏色一致。例如，紅色這個詞就用紅色墨水顯示。有時又會不一致，例如，紅色這個詞，可能是藍色墨水寫的。

排除慣性測試專注力

參與者需要說出墨水的顏色，這聽起來很簡單，但實際上卻很有挑戰性，因為對大多數人來說，閱讀文字是一種自動習慣，測試中大腦必須抑制閱讀文字的衝動，專注辨識墨水的顏色。

心理學家經常使用這項任務來衡量所謂的執行控制能力，執行控制能力是一系列心理過程，可以幫助人們調節注意力、抵抗干擾並專注於目標。研究人員想看看現代大型語言模型 (LLM) 是否能以與人類相同的方式應對這項挑戰。

研究團隊對幾種 AI 模型進行實驗，結果顯示，AI 系統處理資訊的方式，與人腦管理注意力的方式明顯不同。當給定五個顏色詞的短列表時，即使詞語和顏色不匹配，AI 系統通常表現良好。但是隨著名單越來越長，情況發生巨大變化。

測試時間愈長 AI 準確率愈低

GPT-4o 在處理五個單字時達到 91% 的準確率。當單字數量增加到 10 個時，準確率下降到 57%。當單字數擴展到 40 個時，準確率更是跌至 15%。

Claude 3.5 Sonnet 在 20 個單字的清單中保持穩定的效能，但隨後出現急劇下降，在 40 個單字的清單中準確率降至 24%。GPT-5、Claude Opus 4.1 和 Gemini 2.5 也出現類似模式。

AI 無法應對複雜情境

而當匹配和不匹配的顏色詞同時出現在同一個列表中時，AI 表現更混亂。在某些情況下，準確率幾乎降至零。研究人員表示，AI 模型難以記住識別墨水顏色的指令，它們漸漸會選擇直接讀取文字本身。

研究人員表示，這項發現很有趣，因為人類也會這樣，人們通常更擅長閱讀單字，但是大多數人即使面對長長的、包含相互衝突的單字和顏色列表，也能保持較高的準確率和穩定的表現。

這樣研究顯示，即使最強大的 AI 系統也有他的弱點，它們的底層機制與生物大腦中的注意力過程有所不同。人類通常能夠專注特定目標，同時過濾掉干擾訊息。但對 AI 來說，當任務難度不斷增加，目前的模型可能難以勝任這種認知控制。

認知控制能力需加強

持續注意力方面表現不好，可能導致冗長資料分析中的錯誤、對話式 AI 問答偏誤，或需要持續監控的系統故障。因此，未來 AI 發展必須優先考慮增強認知控制和穩健性的機制，可能需要從神經科學中汲取靈感，或探索全新的架構範式。

現在 AI 模型的架構創新著重增強記憶能力，但這沒有解決注意力機制的核心局限性，特別是需要複雜的警報、定向和執行控制網路來實現認知靈活性。研究人員表示，未來系統不能只依賴強大記憶力，而是透過結構化、目標導向的路徑，來處理決策衝突。作者認為，將類似生物注意力的執行控制機制融入 AI 中，是實現通用 AI 的關鍵一步。該研究刊登在《美國國家科學院院刊》(PNAS) 的官方姊妹刊 PNAS Nexus。

(首圖來源：pixabay)