人工智慧快速發展,大型語言模型(LLMs)幻覺問題(Hallucination)一直是企業採用 AI 技術時的顧慮。Google DeepMind 最新 FACTS Grounding 基準測試,為評估 AI 系統事實準確度提供新衡量標準。
重點測試 LLM 幻覺問題
Google DeepMind 團隊近期推出「FACTS Grounding」全新評估標準,旨在解決大型語言模型(LLM)長期幻覺問題,特別評估複雜任務和高度詳細回應的準確性。
最新 FACTS 排行榜顯示,Gemini 2.0 Flash 以 83.6% 準確度居榜首。其他表現優異的模型有 Google Gemini 1.0 Flash、Gemini 1.5 Pro,Anthropic Clade 3.5 Sonnet 和 Claude 3.5 Haiku,以及 OpenAI 多款 GPT 模型,準確度均超過 61.7%。
企業選擇 AI 解決方案時,往往需考慮 AI 應用可信度,現在透過 FACTS Grounding,就有更客觀標準。準確性指標量化,有助企業不同 AI 服務間做出更明智的選擇。
此外高準確度 AI 系統可更多關鍵業務範疇發揮作用,如財務分析、法律文件審查、醫療紀錄處理等。這些範疇對資訊準確性的要求極高,客觀 AI 評估就能為改善業務流程提供新方向。
如何平衡 AI 風險管理和效率
企業規劃 AI 應用時往往不離風險管理,因此應根據業務需求設定準確性門檻。不同應用場景對準確性要求不同,企業需在效率和準確性間找到平衡點。如客服對話可能容許較低準確率,但合約分析需更高準確性保證。
也能透過建立 AI 輸出驗證機制來限制風險。這次 FACTS Grounding 採多個 AI 模型交叉驗證,關鍵決策更可考慮採用多重驗證機制,降低單一 AI 系統失誤風險。同時持續監控和更新,讓 AI 模型性能隨時間變化,使用定期評估機制,確保 AI 系統持續滿足業務需求。
未來 AI 準確度將成為重點基準
AI 技術越進步,準確度越會成為商用化的重要基準,類似 FACTS Grounding 等基準測試結果可當重要參考,但企業也需據實際應用場景針對性測試。加強 AI 治理框架建設亦成為趨勢,AI 應用範圍擴大,企業需制定明確 AI 使用指南,特別是在處理敏感資訊時準確性要求和驗證流程。
這次 FACTS Grounding 基準測試推出,代表 AI 技術向更高準確性邁進的重要一步。對企業而言,不僅有選擇 AI 解決方案的新標準,更提醒我們擁抱 AI 創新時,需建立完善評估和管理機制。AI 技術快速演進的時代,企業領導者需在創新和風險控制間找到平衡,為企業可持續發展奠定堅實基礎。
- Google DeepMind researchers introduce new benchmark to improve LLM factuality, reduce hallucinations
(本文由 Unwire Pro 授權轉載;首圖來源:shutterstock)