七大聊天機器人測試:只有 37% 提供完整新聞來源,錯誤與捏造內容成常態

作者 | 發布日期 2026 年 01 月 14 日 16:00 | 分類 AI 人工智慧 , 軟體、系統 line share Linkedin share follow us in feedly line share
Loading...
七大聊天機器人測試:只有 37% 提供完整新聞來源,錯誤與捏造內容成常態

在一項為期一個月的實驗中,研究人員對多個生成式人工智慧(AI)聊天機器人進行測試,結果顯示這些工具在提供準確新聞方面仍面臨重大挑戰。這項研究由一位專注於電腦科學的新聞學教授主導,測試了包括 Google Gemini、OpenAI ChatGPT、Claude、Copilot、Grok、DeepSeek 和 Aria 等七個系統。實驗中,這些工具每天被要求列出並總結魁北克五個最重要的新聞事件,並提供相關的文章連結做為來源。

實驗的結果令人擔憂,Gemini聊天機器人甚至虛構了一個新聞網站examplefictif.ca,並錯誤報導了2025年9月在魁北克發生的校車司機罷工事件。實際上,該事件是由於Lion Electric巴士因技術問題撤回所引起的。整體而言,在839個回應中,AI系統經常引用虛構的來源、提供無效或不完整的網址,或錯誤地表述真實報導。

根據2024年路透社數位新聞報告,6%的加拿大人依賴生成式AI做為新聞來源。當這些工具產生錯誤事實、扭曲報導或虛構結論時,可能會導致錯誤資訊擴散,特別是當它們的回應以自信的方式呈現時,卻沒有清晰的聲明。

對於使用者來說,這些風險是實際且迫切的。只有37%的回應包含完整且合法的來源網址,而在不到一半的情況下,摘要是完全準確的,許多摘要僅部分正確或存在微妙的誤導。在某些情況下,AI工具還添加了不支持的「生成結論」,聲稱某些故事「重新引發辯論」或「突顯緊張局勢」,這些內容在人工來源中從未提及。這些附加內容聽起來可能很有見地,但卻可能創造出根本不存在的敘事。

此外,這些工具還扭曲了真實故事,例如錯誤報導庇護尋求者的待遇、或錯誤識別主要體育賽事的獲勝者。這些問題表明,生成式AI仍然難以區分總結新聞和虛構背景。

展望未來,這些擔憂與更廣泛的行業評估相一致。最近的一份報告顯示,近一半的AI生成新聞回答存在重大問題,從來源問題到重大不準確性。隨著AI工具在搜尋和日常資訊習慣中的整合,這些發現強調一個明確的警告:在新聞方面,生成式AI充其量應被視為起點,而非可信的紀錄來源。

(首圖來源:sutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》