AI 吃掉大英百科全書？出版巨頭怒告 OpenAI 引爆知識戰爭

近年 AI 快速發展，背後所仰賴的龐大資料來源逐漸浮上檯面。從盜版書籍、新聞內容，到社群平台發言，甚至使用者之間的對話紀錄，都曾被納入模型訓練範圍。這些資料在多數情況下並未經過完整授權，也讓AI能力的建立與資料權利之間產生明顯落差。

RAG技術介入，用戶再也不進網站

大英百科全書在紐約曼哈頓聯邦法院對OpenAI提起訴訟，或許有人會認為大英百科全書還有人在看嗎？這種心態，恰恰說明這場訴訟為什麼值得被嚴肅看待。訴狀的核心指控並不複雜。ChatGPT的輸出內容與大英百科全書條目高度重疊，部分甚至逐字照錄。

OpenAI一貫的辯護邏輯是訓練只是學習規律，屬於著作權法允許的合理使用，這套說法在早期確實有其法律依據。

但大英百科全書這次搬出了一個更難迴避的問題，那就是RAG（檢索增強生成）技術的介入。這項技術讓AI在回答問題時能即時拆解原始條目，直接在對話框裡端出完整答案。用戶得到了想要的資訊，卻再也不會點進大英百科全書的網站。合理使用的成立條件之一是不能實質取代原作的市場，當這條線被跨越，整套辯護策略便開始動搖。

資料從哪裡來，沒有人說得清楚

這場訴訟同時把一個更根本的問題推到了檯面，那就是AI的訓練資料究竟合不合法。多年來，這件事像個公開的祕密，盜版書庫、未授權新聞、爬下來的論壇留言，沒有人認真追問出處。

歐盟的人工智慧法案已明確要求高風險AI系統必須揭露訓練資料的合規狀況。若美國法院在本案中確立類似的揭露義務，後果將遠比一紙賠償判決更深遠。企業將不得不回頭清查訓練集，剔除非法素材，情節嚴重者甚至可能面臨侵權而強制下架。

AI說錯了，卻掛著別人的名字

訴狀中另有一項指控，在法律討論中尚未受到足夠重視，那就是商標損害。大英百科全書指出，ChatGPT不時生成錯誤資訊，卻同時援引大英百科全書為出處。對一個靠準確立身兩百五十年的品牌而言，這種連結遠比直接的版權侵害更為致命。品牌信譽一旦與可能出錯的AI掛鉤，損害便難以量化，更難以修復。AI 答錯本是技術問題，但當錯誤被貼上他人的招牌四處傳播，它就成了一個法律問題。

免費資料，終究要有人買單

生成式AI的商業模式，目前的狀況是科技公司拿走知識、獲取利潤，內容創作者貢獻素材、失去流量，卻毫無補償。若這套結構不被矯正，原創內容的生產者將逐漸失去繼續創作的動力。屆時，AI 賴以運作的資料來源會愈來愈貧乏，整個生態系統終將走向自我耗竭。

再往下看，這其實也是整個知識產業的價值分配機制正在被重新改寫。當AI可以快速整理、生成甚至取代部分內容時，使用者的注意力也開始從原始內容轉向生成結果，這代表流量與收益正在從內容平台與創作者手中，轉移到模型提供者。短期內看似效率提升，長期卻可能削弱整體內容品質。因為一旦優質內容無法獲得合理回報，市場自然會往低成本、快速產出的方向傾斜，最終影響的是資訊的深度與可信度。

（首圖來源：shutterstock）