加拿大西部大學的研究人員發表了一項新研究,顯示大型語言模型(LLM)ChatGPT 在診斷醫療狀況方面表現不佳,在研究人員測試的 150 個案例中,其診斷的準確率只有 49%。研究人員強調了在醫療保健中保持人為因素的重要性,並指出僅依靠人工智慧(AI)進行診斷可能存在風險。
許多人在看醫師之前,會先向「Dr Google」諮詢──也就是透過 Google 搜尋他們的症狀。雖然關心健康並不是一件壞事,但是根據 2020 年澳洲的一項研究對 36 個國際行動和網路症狀檢查器進行的調查,人們透過搜尋 Google 判斷自己的症狀,準確率只有 36%。
與「Dr Google」相較,通過美國醫療執照考試的 ChatGPT,表現會更好嗎?
研究人員使用包含來自書籍、文章和網站的大量資料集訓練的 ChatGPT 3.5,分析了 150 個涵蓋廣泛醫療問題的 Medscape 病例。這些病例涵蓋了胃病、兒科、婦女健康等各種領域。研究結果表明,ChatGPT 能夠辨識並排除一些不正確的答案,但它在診斷方面的整體準確率只有 49%,仍然偏低。
研究人員指出,ChatGPT 讓人易於理解的表達方式可能會導致誤解,尤其是在用作醫學教育工具時。他們還指出,ChatGPT 難以區分症狀相似疾病,也可能產生不正確的資訊。
研究人員強調,這項研究表明不應將大型語言模型做為醫療資訊唯一來源,並建議在醫療診斷過程中保持人類專業人士的參與。他們表示,未來的研究應評估更廣泛的人工智慧模型,並使用更多案例來源來測試這些模型的準確度。
這項研究發表於知名期刊《PLOS One》。
- ChatGPT is as (in)accurate at diagnosis as ‘Dr Google’
- Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models
(首圖來源:shutterstock)