在一項為期一個月的實驗中,研究人員對多個生成式人工智慧(AI)聊天機器人進行測試,結果顯示這些工具在提供準確新聞方面仍面臨重大挑戰。這項研究由一位專注於電腦科學的新聞學教授主導,測試了包括 Google Gemini、OpenAI ChatGPT、Claude、Copilot、Grok、DeepSeek 和 Aria 等七個系統。實驗中,這些工具每天被要求列出並總結魁北克五個最重要的新聞事件,並提供相關的文章連結做為來源。
實驗的結果令人擔憂,Gemini聊天機器人甚至虛構了一個新聞網站examplefictif.ca,並錯誤報導了2025年9月在魁北克發生的校車司機罷工事件。實際上,該事件是由於Lion Electric巴士因技術問題撤回所引起的。整體而言,在839個回應中,AI系統經常引用虛構的來源、提供無效或不完整的網址,或錯誤地表述真實報導。
根據2024年路透社數位新聞報告,6%的加拿大人依賴生成式AI做為新聞來源。當這些工具產生錯誤事實、扭曲報導或虛構結論時,可能會導致錯誤資訊擴散,特別是當它們的回應以自信的方式呈現時,卻沒有清晰的聲明。
對於使用者來說,這些風險是實際且迫切的。只有37%的回應包含完整且合法的來源網址,而在不到一半的情況下,摘要是完全準確的,許多摘要僅部分正確或存在微妙的誤導。在某些情況下,AI工具還添加了不支持的「生成結論」,聲稱某些故事「重新引發辯論」或「突顯緊張局勢」,這些內容在人工來源中從未提及。這些附加內容聽起來可能很有見地,但卻可能創造出根本不存在的敘事。
此外,這些工具還扭曲了真實故事,例如錯誤報導庇護尋求者的待遇、或錯誤識別主要體育賽事的獲勝者。這些問題表明,生成式AI仍然難以區分總結新聞和虛構背景。
展望未來,這些擔憂與更廣泛的行業評估相一致。最近的一份報告顯示,近一半的AI生成新聞回答存在重大問題,從來源問題到重大不準確性。隨著AI工具在搜尋和日常資訊習慣中的整合,這些發現強調一個明確的警告:在新聞方面,生成式AI充其量應被視為起點,而非可信的紀錄來源。
(首圖來源:sutterstock)






