近年 AI 快速發展,背後所仰賴的龐大資料來源逐漸浮上檯面。從盜版書籍、新聞內容,到社群平台發言,甚至使用者之間的對話紀錄,都曾被納入模型訓練範圍。這些資料在多數情況下並未經過完整授權,也讓AI能力的建立與資料權利之間產生明顯落差。
RAG技術介入,用戶再也不進網站
大英百科全書在紐約曼哈頓聯邦法院對OpenAI提起訴訟,或許有人會認為大英百科全書還有人在看嗎?這種心態,恰恰說明這場訴訟為什麼值得被嚴肅看待。訴狀的核心指控並不複雜。ChatGPT的輸出內容與大英百科全書條目高度重疊,部分甚至逐字照錄。
OpenAI一貫的辯護邏輯是訓練只是學習規律,屬於著作權法允許的合理使用,這套說法在早期確實有其法律依據。
但大英百科全書這次搬出了一個更難迴避的問題,那就是RAG(檢索增強生成)技術的介入。這項技術讓AI在回答問題時能即時拆解原始條目,直接在對話框裡端出完整答案。用戶得到了想要的資訊,卻再也不會點進大英百科全書的網站。合理使用的成立條件之一是不能實質取代原作的市場,當這條線被跨越,整套辯護策略便開始動搖。
資料從哪裡來,沒有人說得清楚
這場訴訟同時把一個更根本的問題推到了檯面,那就是AI的訓練資料究竟合不合法。多年來,這件事像個公開的祕密,盜版書庫、未授權新聞、爬下來的論壇留言,沒有人認真追問出處。
歐盟的人工智慧法案已明確要求高風險AI系統必須揭露訓練資料的合規狀況。若美國法院在本案中確立類似的揭露義務,後果將遠比一紙賠償判決更深遠。企業將不得不回頭清查訓練集,剔除非法素材,情節嚴重者甚至可能面臨侵權而強制下架。
AI說錯了,卻掛著別人的名字
訴狀中另有一項指控,在法律討論中尚未受到足夠重視,那就是商標損害。大英百科全書指出,ChatGPT不時生成錯誤資訊,卻同時援引大英百科全書為出處。對一個靠準確立身兩百五十年的品牌而言,這種連結遠比直接的版權侵害更為致命。品牌信譽一旦與可能出錯的AI掛鉤,損害便難以量化,更難以修復。AI 答錯本是技術問題,但當錯誤被貼上他人的招牌四處傳播,它就成了一個法律問題。
免費資料,終究要有人買單
生成式AI的商業模式,目前的狀況是科技公司拿走知識、獲取利潤,內容創作者貢獻素材、失去流量,卻毫無補償。若這套結構不被矯正,原創內容的生產者將逐漸失去繼續創作的動力。屆時,AI 賴以運作的資料來源會愈來愈貧乏,整個生態系統終將走向自我耗竭。
再往下看,這其實也是整個知識產業的價值分配機制正在被重新改寫。當AI可以快速整理、生成甚至取代部分內容時,使用者的注意力也開始從原始內容轉向生成結果,這代表流量與收益正在從內容平台與創作者手中,轉移到模型提供者。短期內看似效率提升,長期卻可能削弱整體內容品質。因為一旦優質內容無法獲得合理回報,市場自然會往低成本、快速產出的方向傾斜,最終影響的是資訊的深度與可信度。
- ChatGPT’s latest enemy is the world’s best dictionary and encyclopedia
- Encyclopedia Britannica sues OpenAI over AI training
- Millions of websites to get ‘game-changing’ AI bot blocker
- AI ‘slop’ is transforming social media – and a backlash is brewing
(首圖來源:shutterstock)






