代理型 AI 面臨非結構化數據難題:IBM 推出解決方案

作者 | 發布日期 2025 年 07 月 10 日 14:00 | 分類 AI 人工智慧 , 市場動態 , 軟體、系統 line share Linkedin share follow us in feedly line share
Loading...
代理型 AI 面臨非結構化數據難題:IBM 推出解決方案

IBM 正在從根本上簡化面向 AI 的數據堆棧。IBM 在 Think 大會上預覽 watsonx.data 的重大演進,以幫助組織做好數據準備為 AI 所用,同時提供一個開放的混合數據基礎架構和企業級的結構化和非結構化數據管理。

測試結果顯示,與傳統 RAG 相比,IBM watsonx.data 的 AI 準確性提高了 40%。IBM 於 6 月推出的產品和功能包括:

  • Watsonx.data integration(集成),該軟體可在單個界面中編排不同集成樣式和格式的數據訪問和工程設計,其核心是靈活性和規模。
  • Watsonx.data intelligence(智慧),該軟體可改變組織處理、管理和利用有意義數據的方式,利用 AI 的力量簡化數據治理。
  • 在 Meta 的 Llama Stack 中增加 watsonx 做為 API 提供商,增強了企業大規模部署生成式 AI 的能力,並以開放性為核心。

Watsonx.data 集成和 Watsonx.data 智慧將做為獨立產品提供,部分功能也將透過 Watsonx.data 提供,進而最大限度地提高客戶選擇和模組化程度。

為了補充這些產品,IBM 近期宣布了收購 DataStax 的意向,DataStax 擅長將非結構化數據用於生成式 AI。借助 DataStax,客戶可以訪問其他矢量搜尋功能。

基於內部測試,對比使用 watsonx.data Premium Edition 檢索層與僅矢量 RAG 在三個常見用例中 AI 模型輸出答案的準確性,測試使用 IBM 專有數據集,採用相同的選定開源通用推理、評估和嵌入模型以及額外變量。測試結果可能因具體情況而異。

這一重大演進的背景

企業正面臨著實現準確且高性能的生成式 AI──尤其是具有自主決策能力的代理 AI 的重大障礙,但該障礙並非如大多數企業領導者所想。

問題不在於推理成本或難以捉摸的「完美」模型。問題在於數據。

企業需要可信且具有公司特性的數據,才能讓代理 AI 真正創造價值──這些數據存在於電子郵件、文檔、演示文稿和影像等非結構化數據中。據估計,2022 年企業產生的數據中 90% 是非結構化數據,但 IBM 預測其中僅有 1% 為大型語言模型(LLMs)所用

非結構化數據的利用往往面臨巨大挑戰。這類數據分布廣泛且動態變化,存儲於多種格式中,缺乏清晰的標籤,且常需額外上下文才能完整解讀。傳統檢索增強生成(RAG)技術難以有效提取其價值,也無法妥善整合非結構化與結構化數據。

與此同時,各類孤立的工具會使 AI 數據處理架構變得複雜且繁瑣。企業需要同時管理數據倉庫、數據湖以及數據治理和數據集成工具。數據架構可能與它本應管理的非結構化數據一樣令人困惑。

許多組織並未解決根本問題。它們僅關注生成式 AI 的應用層,而非其下方的核心數據層。除非組織修復其數據基礎架構,否則 AI 代理和其他生成式 AI 計畫將無法充分發揮其潛力。

幫助組織實現數據的 AI 就緒

IBM 提供的新功能將使組織能夠採集、治理和檢索非結構化(及結構化)數據──在此基礎上,實現準確、高性能的生成式 AI 的規模化應用。

(本文由 PR Newswire 授權轉載)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》