最新研究顯示,AI 聊天機器人醫療建議表現與傳統搜尋引擎相當,卻未改善用戶健康度。
研究由牛津網路研究所與牛津大學納菲爾德基層健康科學系的學者,與 MLCommons 及其他機構合作,近 1,300 名英國參與者,測試十個專家設計的醫療情境,參與者隨機分成兩組,一組用大型語言模型(LLMs)如 GPT-4o、Llama 3 和 Command R+,另一組為個人常用診斷方法,大部分為網路搜尋或個人知識。
結果顯示,使用 LLM 參與者的評估健康狀況和建議行動表現,與用搜尋引擎的參與者相當,成功率僅 33%~45%。儘管 LLM 理論上結構化問題有 94.9% 準確率,但實際互動時因人類與 AI 溝通不良,導致表現差距頗大。用戶經常忽略關鍵細節、誤解聊天機器人意思或忽視建議。
共同作者之一、牛津網路研究所副教授 Luc Rocher 表示,儘管 AI 不斷突破,但要保證將來模型能平衡用戶的慰藉需求與公共衛生系統的有限,仍是個挑戰。越來越多人依賴聊天機器人給予醫療建議,大眾可能會將錯誤但看似合理的診斷導入已吃緊的醫療體系。
研究者強調,AI 聊天機器人尚未準備好在現實世界當醫生,呼籲開發者和監管機構部署 LLM 照護病患前,必須實際評估用戶。
- AI chatbots don’t improve medical advice, study finds
- New study warns of risks in AI chatbots giving medical advice
- Reliability of LLMs as medical assistants for the general public: a randomized preregistered study
- AI chatbots no better than traditional sources for health advice: Study
- Chatbots Make Terrible Doctors, New Study Finds
- The comforting allure of AI therapy
(首圖來源:AI 生成)






