來自美國、加拿大與英國的研究人員發現,流行的人工智慧聊天機器人如 ChatGPT、Gemini、Meta AI、Grok 與 DeepSeek 在回應健康問題時,提供不準確或虛構醫療建議的比率接近 50%。這項研究的結果發表在醫學期刊《BMJ Open》中,強調了這項技術在日常生活中日益重要的同時,所帶來的健康風險。
研究團隊對 5 個熱門平台進行了評估,向每個平台提出了 10 個問題,涵蓋 5 個健康類別。結果顯示,約 50% 的回應被認為存在問題,其中近 20% 的回應被標記為高度問題。
這項研究的發現與 2024 年發表在《美國醫學會雜誌》(JAMA)上的這項研究相呼應,該研究分析了 4 個主要 AI 聊天機器人對 1,713 個醫療問題的回應,發現 48.9% 的 AI 回應至少包含 1 個虛構資訊。這些虛構資訊包括捏造的研究、指導方針、藥物互動作用或劑量,這些都沒有得到證據支援。
研究的具體資料顯示,GPT-4o 的虛構率為 25.3%,而 GPT-4o mini 則高達 58.5%。這些資料顯示,即使是表現最好的模型,仍然在四分之一的回應中出現虛構,並且經常自信地陳述錯誤的事實,例如不存在的臨床試驗或不正確的治療方案。
專家們對此現象表示擔憂,並呼籲對 AI 在醫療領域的應用軟體進行更嚴格的監管。美國醫學會在 2024 年的指導方針中建議,AI 的使用應該有專業人士的監督,以確保患者的安全。隨著 AI 技術的進步,專家們也強調了其在某些情況下的潛力,例如在常見症狀的初步篩檢中,但同時也指出了其在臨床應用中的局限。
(首圖來源:AI 生成)






