與其爭論 AI 的智商，不如看它如何幫人類評估實驗假設

根據近期研究與相關報導，人工智慧是否「比人類更聰明」的答案，可能比外界想像得更複雜。最新觀點指出，與其單純比較誰在答題或推理上更強，科學界更該關注的是 AI 能否從大量研究資料中找出規律、預測結果，並協助人類加速實驗設計與研究決策。

倫敦大學學院研究團隊先前以 BrainBench 工具測試大型語言模型與神經科學專家對研究摘要的判斷能力，結果顯示，多款通用模型的表現普遍優於人類專家。研究中，15 個通用大型語言模型平均準確率達 81%，而 171 名通過篩選的神經科學專家平均僅 63%；即使只看自評專業度最高的專家，準確率也只有 66%。

進一步將模型以神經科學文獻微調後，表現還能再提升。研究團隊打造的 BrainGPT 準確率達 86%，高於通用版本 Mistral 的 83%。研究者指出，當模型對判斷越有把握時，往往也越接近正確答案，顯示未來 AI 與人類專家有望在實驗設計與結果預測上形成互補。

這些發現也呼應另一篇相關報導的核心問題：AI 與人類相比，真正值得追問的或許不是「誰更聰明」，而是 AI 是否已經成為能協助科學發現的新工具。對研究人員而言，這意味著 AI 不只是用來回覆問題，而可能進一步用於預測科學結果、縮短試錯時間，並幫助科學家在提出實驗前先評估不同假設的可能性。