在人工智慧競賽白熱化的當下,中國新創公司 DeepSeek AI 的 iOS 應用程式異軍突起,迅速登上 App Store 免費應用程式下載榜首,超越了 ChatGPT 等競爭對手。然而,這款爆紅應用程式在新聞資訊的準確性方面卻表現不佳,引發了業界和市場的廣泛關注。
根據《路透社》與《PhoneArena》報導,可信度評級機構 NewsGuard 的最新報告,DeepSeek AI 的新聞資訊準確率僅為 17%,在參與評測的 11 款人工智慧聊天機器人中排名倒數第二。NewsGuard 的測試顯示,DeepSeek 在 30% 的情況下會做出虛假陳述,而在 53% 的情況下,對於新聞相關的提問,其回應是模糊不清或毫無用處。總體而言,DeepSeek 的失敗率高達 83%,遠高於西方競爭對手的平均失敗率 62%。
NewsGuard 的評測方法與測試 ChatGPT 和 Gemini 等產品的方法一致,包括 300 個提示,其中 30 個提示是基於網路上流傳的 10 個虛假聲明。測試的主題涵蓋了聯合健康保險公司高層被暗殺的謠言以及亞塞拜然航空公司航班墜毀事件(Azerbaijan Airlines flight 8243)等。
DeepSeek 重複虛假聲明?
更令人擔憂的是──即使在提問中沒有提及中國,DeepSeek 仍會在某些問題上重複中國政府的立場。例如,在回應與亞塞拜然航空公司墜機事件相關的問題時,DeepSeek 的回答明顯傾向於北京的觀點。
DeepSeek 聲稱其人工智慧技術的效能與 ChatGPT 相當甚至更好,但開發成本卻遠低於 OpenAI。然而,NewsGuard 的報告質疑了這一說法。
DA Davidson 分析師 Gil Luria 指出,DeepSeek 的突破之處在於其以極低的成本提供人工智慧服務,而不是在於新聞資訊的準確性。NewsGuard 也強調,DeepSeek 和其他人工智慧模型一樣,在回應那些試圖利用人工智慧製造和傳播虛假資訊的提示時,最容易重複虛假聲明。
目前,DeepSeek 公司尚未對此回應。NewsGuard 的報告突顯了人工智慧領域的一個重要問題:在追求技術發展速度的同時,如何確保資訊的準確性和可靠性?DeepSeek 的案例表明,即使是爆紅的應用程式,也可能在資訊品質方面存在嚴重的缺陷,這對用戶和市場都帶來了潛在風險。
- DeepSeek’s chatbot achieves 17% accuracy, trails Western rivals in NewsGuard audit
- China’s DeepSeek is cheaper than ChatGPT but accuracy tests show you get what you pay for
(首圖來源:pixabay)