AI 聊天機器人準確性堪憂，近 50% 回應虛構醫療建議

來自美國、加拿大與英國的研究人員發現，流行的人工智慧聊天機器人如 ChatGPT、Gemini、Meta AI、Grok 與 DeepSeek 在回應健康問題時，提供不準確或虛構醫療建議的比率接近 50%。這項研究的結果發表在醫學期刊《BMJ Open》中，強調了這項技術在日常生活中日益重要的同時，所帶來的健康風險。

研究團隊對 5 個熱門平台進行了評估，向每個平台提出了 10 個問題，涵蓋 5 個健康類別。結果顯示，約 50% 的回應被認為存在問題，其中近 20% 的回應被標記為高度問題。

這項研究的發現與 2024 年發表在《美國醫學會雜誌》（JAMA）上的這項研究相呼應，該研究分析了 4 個主要 AI 聊天機器人對 1,713 個醫療問題的回應，發現 48.9% 的 AI 回應至少包含 1 個虛構資訊。這些虛構資訊包括捏造的研究、指導方針、藥物互動作用或劑量，這些都沒有得到證據支援。

研究的具體資料顯示，GPT-4o 的虛構率為 25.3%，而 GPT-4o mini 則高達 58.5%。這些資料顯示，即使是表現最好的模型，仍然在四分之一的回應中出現虛構，並且經常自信地陳述錯誤的事實，例如不存在的臨床試驗或不正確的治療方案。

專家們對此現象表示擔憂，並呼籲對 AI 在醫療領域的應用軟體進行更嚴格的監管。美國醫學會在 2024 年的指導方針中建議，AI 的使用應該有專業人士的監督，以確保患者的安全。隨著 AI 技術的進步，專家們也強調了其在某些情況下的潛力，例如在常見症狀的初步篩檢中，但同時也指出了其在臨床應用中的局限。