
一項新研究揭露 Meta Llama 3.1 模型能夠有效記憶並重現《Harry Potter and the Sorcerer’s Stone》(哈利波特:神秘的魔法石)近半數內容,表明逐字重現受版權保護的內容並非某些 AI 實驗室所稱「附加行為」,而是受歡迎內容用來訓練模型的有力證據。
AI 浪潮興起,內容創作者指控模型如同侵權複製機器,科技公司則辯稱模型只是學習統計關聯,沒有儲存受版權保護的作品,雙方在法律上各執一詞。
來自史丹佛大學、康乃爾大學及西維吉尼亞大學研究人員的論文指出,Meta Llama 3.1 70B 模型記得 42%《哈利波特:神秘的魔法石》文字內容,遠高於第一代 Llama 模型的 4.4%,顯示 Meta 更新後的訓練方法大幅增強模型保留並重現版權內容的能力。
研究人員也發現,同樣 Llama 3.1 70B 模型對作家凱德瑞(Richard Kadrey)的小說《Sandman Slim》僅記憶 0.13%,順帶一提他是對 Meta 提起集體訴訟的原告之一。當受歡迎的書籍被大量記住,其他大多數書籍卻沒有,可能使大規模集體訴訟的認證工作變得複雜,卻為個別版權持有人提供強而有力的證據。
有關 AI 訓練和版權之間的辯論,已從模型輸出內容是否侵權,擴展到模型本身是否構成違法複製,上述研究進一步支持後者論點。史丹佛大學法學教授、也是這項研究共同作者的萊姆利(Mark Lemley)表示,研究結果顯示模型包含「法律會將模型本身稱為書籍部分內容的副本」。
這個觀點也獲得美國聯邦政府部門的重視,美國著作權局(U.S. Copyright Office,USCO)今年 5 月發表 108 頁報告指出,若模型能重現訓練資料中的「大量受保護的表達」,模型內部的權重可能被視為侵權複製品。這份報告明確駁斥將 AI 訓練比擬成人類學習的說法,並指出 AI 完美複製數位內容的能力,與人類不完美的記憶根本不同。
Meta 因資料來源陷入多起法律糾紛。今年稍早有法院文件顯示,Meta 稱使用 Libgen 等「影子圖書館」的大量盜版書籍,做為 Llama 模型的訓練資料。訴訟文件稱,Meta 執行長祖克柏(Mark Zuckerberg)不顧公司內部警告,仍批准使用盜版書籍訓練模型。
今年 3 月一份專家分析指出,Meta 可能涉嫌透過 BitTorrent「做種」(seeding),下載約 30% 盜版書籍,增加法律風險。此舉使 Meta 從「合理使用並用於訓練」轉變成「主動散播盜版」,類似訴訟正在全球蔓延,法國出版商和作者也以「史無前例的掠奪行為」來形容,對 Meta 提起訴訟。
Meta 頗具爭議的數據資料策略,反映該公司在 AI 競賽面臨巨大壓力。原先 14 名 Llama 研究論文作者已有 11 人從 Meta 離職,導致 Llama 模型開發受阻,高達 2 兆參數的 Llama 4「Behemoth」模型,近日傳出因模型性能問題延至 2025 年底才會推出。儘管傳以 143 億美元投資新創公司 Scale AI 鞏固資料來源,並挖角其執行長汪滔(Alexandr Wang)加入超級智慧團隊(superintelligence group),Meta 能否在 AI 競賽捲土重來,值得持續觀察。
(首圖來源:shutterstock)