找 AI 看診到底行不行？牛津大學：和搜尋引擎準確度差不多

最新研究顯示，AI 聊天機器人醫療建議表現與傳統搜尋引擎相當，卻未改善用戶健康度。

研究由牛津網路研究所與牛津大學納菲爾德基層健康科學系的學者，與 MLCommons 及其他機構合作，近 1,300 名英國參與者，測試十個專家設計的醫療情境，參與者隨機分成兩組，一組用大型語言模型（LLMs）如 GPT-4o、Llama 3 和 Command R+，另一組為個人常用診斷方法，大部分為網路搜尋或個人知識。

結果顯示，使用 LLM 參與者的評估健康狀況和建議行動表現，與用搜尋引擎的參與者相當，成功率僅 33%~45%。儘管 LLM 理論上結構化問題有 94.9% 準確率，但實際互動時因人類與 AI 溝通不良，導致表現差距頗大。用戶經常忽略關鍵細節、誤解聊天機器人意思或忽視建議。

共同作者之一、牛津網路研究所副教授 Luc Rocher 表示，儘管 AI 不斷突破，但要保證將來模型能平衡用戶的慰藉需求與公共衛生系統的有限，仍是個挑戰。越來越多人依賴聊天機器人給予醫療建議，大眾可能會將錯誤但看似合理的診斷導入已吃緊的醫療體系。

研究者強調，AI 聊天機器人尚未準備好在現實世界當醫生，呼籲開發者和監管機構部署 LLM 照護病患前，必須實際評估用戶。

（首圖來源：AI 生成）