七大聊天機器人測試：只有 37% 提供完整新聞來源，錯誤與捏造內容成常態

在一項為期一個月的實驗中，研究人員對多個生成式人工智慧（AI）聊天機器人進行測試，結果顯示這些工具在提供準確新聞方面仍面臨重大挑戰。這項研究由一位專注於電腦科學的新聞學教授主導，測試了包括 Google Gemini、OpenAI ChatGPT、Claude、Copilot、Grok、DeepSeek 和 Aria 等七個系統。實驗中，這些工具每天被要求列出並總結魁北克五個最重要的新聞事件，並提供相關的文章連結做為來源。

實驗的結果令人擔憂，Gemini聊天機器人甚至虛構了一個新聞網站examplefictif.ca，並錯誤報導了2025年9月在魁北克發生的校車司機罷工事件。實際上，該事件是由於Lion Electric巴士因技術問題撤回所引起的。整體而言，在839個回應中，AI系統經常引用虛構的來源、提供無效或不完整的網址，或錯誤地表述真實報導。

根據2024年路透社數位新聞報告，6%的加拿大人依賴生成式AI做為新聞來源。當這些工具產生錯誤事實、扭曲報導或虛構結論時，可能會導致錯誤資訊擴散，特別是當它們的回應以自信的方式呈現時，卻沒有清晰的聲明。

對於使用者來說，這些風險是實際且迫切的。只有37%的回應包含完整且合法的來源網址，而在不到一半的情況下，摘要是完全準確的，許多摘要僅部分正確或存在微妙的誤導。在某些情況下，AI工具還添加了不支持的「生成結論」，聲稱某些故事「重新引發辯論」或「突顯緊張局勢」，這些內容在人工來源中從未提及。這些附加內容聽起來可能很有見地，但卻可能創造出根本不存在的敘事。

此外，這些工具還扭曲了真實故事，例如錯誤報導庇護尋求者的待遇、或錯誤識別主要體育賽事的獲勝者。這些問題表明，生成式AI仍然難以區分總結新聞和虛構背景。

展望未來，這些擔憂與更廣泛的行業評估相一致。最近的一份報告顯示，近一半的AI生成新聞回答存在重大問題，從來源問題到重大不準確性。隨著AI工具在搜尋和日常資訊習慣中的整合，這些發現強調一個明確的警告：在新聞方面，生成式AI充其量應被視為起點，而非可信的紀錄來源。