ChatGPT 雖然通過美國醫療執照考試，但診斷複雜臨床病例準確率只有 49%

加拿大西部大學的研究人員發表了一項新研究，顯示大型語言模型（LLM）ChatGPT 在診斷醫療狀況方面表現不佳，在研究人員測試的 150 個案例中，其診斷的準確率只有 49%。研究人員強調了在醫療保健中保持人為因素的重要性，並指出僅依靠人工智慧（AI）進行診斷可能存在風險。

許多人在看醫師之前，會先向「Dr Google」諮詢──也就是透過 Google 搜尋他們的症狀。雖然關心健康並不是一件壞事，但是根據 2020 年澳洲的一項研究對 36 個國際行動和網路症狀檢查器進行的調查，人們透過搜尋 Google 判斷自己的症狀，準確率只有 36%。

與「Dr Google」相較，通過美國醫療執照考試的 ChatGPT，表現會更好嗎？

研究人員使用包含來自書籍、文章和網站的大量資料集訓練的 ChatGPT 3.5，分析了 150 個涵蓋廣泛醫療問題的 Medscape 病例。這些病例涵蓋了胃病、兒科、婦女健康等各種領域。研究結果表明，ChatGPT 能夠辨識並排除一些不正確的答案，但它在診斷方面的整體準確率只有 49%，仍然偏低。

研究人員指出，ChatGPT 讓人易於理解的表達方式可能會導致誤解，尤其是在用作醫學教育工具時。他們還指出，ChatGPT 難以區分症狀相似疾病，也可能產生不正確的資訊。

研究人員強調，這項研究表明不應將大型語言模型做為醫療資訊唯一來源，並建議在醫療診斷過程中保持人類專業人士的參與。他們表示，未來的研究應評估更廣泛的人工智慧模型，並使用更多案例來源來測試這些模型的準確度。

這項研究發表於知名期刊《PLOS One》。

（首圖來源：shutterstock）