找 AI 看診到底行不行?牛津大學:和搜尋引擎準確度差不多

作者 | 發布日期 2026 年 02 月 10 日 11:00 | 分類 AI 人工智慧 , 醫療科技 line share Linkedin share follow us in feedly line share
Loading...
找 AI 看診到底行不行?牛津大學:和搜尋引擎準確度差不多

最新研究顯示,AI 聊天機器人醫療建議表現與傳統搜尋引擎相當,卻未改善用戶健康度。

研究由牛津網路研究所與牛津大學納菲爾德基層健康科學系的學者,與 MLCommons 及其他機構合作,近 1,300 名英國參與者,測試十個專家設計的醫療情境,參與者隨機分成兩組,一組用大型語言模型(LLMs)如 GPT-4o、Llama 3 和 Command R+,另一組為個人常用診斷方法,大部分為網路搜尋或個人知識。

結果顯示,使用 LLM 參與者的評估健康狀況和建議行動表現,與用搜尋引擎的參與者相當,成功率僅 33%~45%。儘管 LLM 理論上結構化問題有 94.9% 準確率,但實際互動時因人類與 AI 溝通不良,導致表現差距頗大。用戶經常忽略關鍵細節、誤解聊天機器人意思或忽視建議。

共同作者之一、牛津網路研究所副教授 Luc Rocher 表示,儘管 AI 不斷突破,但要保證將來模型能平衡用戶的慰藉需求與公共衛生系統的有限,仍是個挑戰。越來越多人依賴聊天機器人給予醫療建議,大眾可能會將錯誤但看似合理的診斷導入已吃緊的醫療體系。

研究者強調,AI 聊天機器人尚未準備好在現實世界當醫生,呼籲開發者和監管機構部署 LLM 照護病患前,必須實際評估用戶。

(首圖來源:AI 生成)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》