AI 幻覺別輕易相信，數學、醫療、引用資訊最容易出錯

大型語言模型（LLM）如 ChatGPT、Gemini、Claude 等，近年因回應快速、語氣流暢、結構完整而廣受歡迎，但這種「看起來很有把握」的表現，並不等於答案真的正確。人工智慧在多種高精準需求任務上，仍存在明顯錯誤風險，尤其在數學、資料分析、教學、健康建議與引用查核等領域，使用者更不能掉以輕心。

外媒 MakeUseOf 特約撰稿人 Yadullah Abidi 指出，LLM 的核心設計是根據上下文預測「下一個最可能出現的詞元」，本質上擅長處理自然語言，而不是進行真正的運算或邏輯驗證。根據 4 月公布的一項評測顯示，以數學為例，在 Omni-MATH 基準測試中，各模型平均正確率僅約 38.6%，代表超過六成題目可能部分或完全出錯。也就是說，AI 即使能一步步寫出看似合理的解題過程，最終答案仍未必可信。

資料分析同樣不是 AI 的絕對強項。研究顯示，這類任務的正確率約為 52.2%。原因在於，當資料不完整、背景不足或存在模糊空間時，模型往往不是停下來說「我不知道」，而是自動補上它「認為合理」的內容，導致分析結果帶有想像成分。

在教學與健康領域，風險更值得警惕。針對教學任務的測試中，AI 準確率約為 67%，代表每三次解釋就可能有一次出錯。若進一步用於複雜課業輔導、醫療問題、運動建議或美容保養，錯誤資訊甚至可能直接影響個人健康與安全。

此外，AI 在引用來源與特定事實查核上的問題依舊嚴重。研究指出，模型經常編造作者、年份、期刊名稱、頁碼，甚至捏造根本不存在的連結與文獻，讓錯誤資訊披上「看似專業」的外衣。

人工智慧並非毫無價值，而是必須用在適合的場景。它很適合發想、整理、改寫與處理開放式任務；但一旦涉及數學計算、醫療判斷、精確引用或高風險決策，仍應由人類專業者把關。換言之，面對 AI，最安全的態度不是全盤否定，也不是全然相信，而是「可以參考，但一定要核實」。