
大型語言模型(LLM)醫學考試表現優異等報導近年不絕於耳,GPT-4 2023 年已能正確回答美國醫學執照考試題目達 90%,之後更超越考試住院醫生和執業醫生。但牛津大學最新研究發現,LLM 現實應用表現遠不如考試成績亮眼。
實驗室成績與現實應用鴻溝太大
牛津大學研究員發現,LLM 直接處理測試場景時能正確辨識病症率達 94.9%,但人類用 LLM 診斷相同場景時,正確辨識病症率卻低於 34.5%。更令人意外的是,使用 LLM 的患者表現甚至比對照組更差,對照組為「通常在家會用的任何方法」自我診斷。
Adam Mahdi 博士領導團隊招募 1,298 名參與者扮演患者與 LLM 互動。每位參與者給予詳細疾病背景,從肺炎到普通感冒等,以及生活細節和病史,但不給予正確答案。如 20 歲工程系學生與朋友外出時突然劇烈頭痛,重要細節為低頭時疼痛和誤導資訊:經常飲酒、與六名朋友合租、剛考過壓力大的考試。
三種 LLM 參與測試:普及性選 GPT-4o、開放權重選 Llama 3、檢索增強生成(RAG)能力選 Command R+。參與者要求至少用 LLM 一次以取得自我診斷和行動方案。
資訊傳遞過程出現嚴重失誤
參與者用 LLM 診斷病症的一致性低於對照組。用 LLM 的參與者最多只有 34.5% 能找出至少一種相關病,對照組為 47.0%。選擇正確行動方案率也只有 44.2%,相比之下 LLM 獨立運作時為 56.3%。
研究員回顧對話紀錄發現,參與者給 LLM 的資訊都不完整,LLM 也會誤解人類提示。分到得膽結石的用戶只告訴 LLM:「我有嚴重胃痛,持續長達一小時,讓我嘔吐,似乎與外賣有關」,遺漏了疼痛位置、嚴重程度和頻率。Command R+ 錯誤診斷參與者消化不良,參與者也猜錯病症。
即使 LLM 答對疾病,參與者也不一定相信。65.7% 的 GPT-4o 對話提出至少一種病症,但不到 34.5% 參與者最終答案有參考模型提出的病症。
人機互動設計成關鍵因素
北卡羅萊納大學教堂山分校文藝復興運算研究所(RENCI)用戶體驗專家 Nathalie Volkheimer 認為這研究有用但不令人驚訝:「對我們記得早期網路搜尋體驗的人來說,這很似曾相識。大型語言模型等工具需要提示詞達特定品質,特別在你期望有高品質輸出時。」
Volkheimer 指經歷劇烈疼痛的人不會說出多有品質的提示詞。雖然實驗參與者只是模擬病人,但也沒有說出所有細節。她警告:「我不會把重點放在機器,應該是人機互動。」她以汽車是為了讓人從 A 點到 B 點而製造比喻,但許多其他因素也有作用。
團隊嘗試用 AI 測試者取代人類。他們找 LLM 扮演病人,用一般語言簡化術語並保持問題陳述合理簡短。模擬參與者用相同 LLM 工具時,平均 60.7% 能正確辨識病症,人類低於 34.5%。這顯示 LLM 與其他 LLM 互動比和人類互動更明白清楚,成為現實表現的不良預測指標。
企業需重新思考評估標準
這項研究提醒 AI 工程師和協調專家:如果 LLM 是要與人類互動,僅靠非互動式基準測試會對現實能力產生危險的假安全感。企業部署聊天機器人前,需理解受眾、目標和客戶體驗。
Volkheimer 建議:「每種客服環境,如果客戶沒有做你希望他們做的事,最後才責怪客戶。首先要問為什麼,不是憑直覺『為什麼』,而是深入調查、細節、人類學、心理學、經過檢驗的『為什麼』。」
沒有精心規劃的培訓材料,LLM 將「吐出大家都討厭的通用答案,這就是人們討厭聊天機器人的原因」。Volkheimer 說:「不是因為聊天機器人很糟糕或技術有問題。而是因為輸入品質很糟糕。」
企業需要認識 LLM 標準化測試的優異表現不能直接看成實際應用成功,團隊必須投入時間理解真實用戶如何表達問題、知識水準和溝通習慣。只有全面人機互動測試和持續改良,才能真正發揮 AI 醫療和其他範疇的潛力。
越來越多企業想啟用 AI 系統,這項研究提供寶貴教訓:技術力只是成功的一部分,理解和設計良好的人機互動同樣重要。企業必須超越簡單的準確率指標,真正關注用戶現實世界如何與 AI 互動。
(本文由 Unwire Pro 授權轉載;首圖來源:shutterstock)