研究揭 Llama 模型重現 42%《哈利波特》內容,版權訴訟添有力證據

作者 | 發布日期 2025 年 06 月 16 日 14:14 | 分類 AI 人工智慧 , Facebook , Meta line share Linkedin share follow us in feedly line share
Loading...
研究揭 Llama 模型重現 42%《哈利波特》內容,版權訴訟添有力證據

一項新研究揭露 Meta Llama 3.1 模型能夠有效記憶並重現《Harry Potter and the Sorcerer’s Stone》(哈利波特:神秘的魔法石)近半數內容,表明逐字重現受版權保護的內容並非某些 AI 實驗室所稱「附加行為」,而是受歡迎內容用來訓練模型的有力證據。

AI 浪潮興起,內容創作者指控模型如同侵權複製機器,科技公司則辯稱模型只是學習統計關聯,沒有儲存受版權保護的作品,雙方在法律上各執一詞。

來自史丹佛大學、康乃爾大學及西維吉尼亞大學研究人員的論文指出,Meta Llama 3.1 70B 模型記得 42%《哈利波特:神秘的魔法石》文字內容,遠高於第一代 Llama 模型的 4.4%,顯示 Meta 更新後的訓練方法大幅增強模型保留並重現版權內容的能力。

研究人員也發現,同樣 Llama 3.1 70B 模型對作家凱德瑞(Richard Kadrey)的小說《Sandman Slim》僅記憶 0.13%,順帶一提他是對 Meta 提起集體訴訟的原告之一。當受歡迎的書籍被大量記住,其他大多數書籍卻沒有,可能使大規模集體訴訟的認證工作變得複雜,卻為個別版權持有人提供強而有力的證據。

有關 AI 訓練和版權之間的辯論,已從模型輸出內容是否侵權,擴展到模型本身是否構成違法複製,上述研究進一步支持後者論點。史丹佛大學法學教授、也是這項研究共同作者的萊姆利(Mark Lemley)表示,研究結果顯示模型包含「法律會將模型本身稱為書籍部分內容的副本」。

這個觀點也獲得美國聯邦政府部門的重視,美國著作權局(U.S. Copyright Office,USCO)今年 5 月發表 108 頁報告指出,若模型能重現訓練資料中的「大量受保護的表達」,模型內部的權重可能被視為侵權複製品。這份報告明確駁斥將 AI 訓練比擬成人類學習的說法,並指出 AI 完美複製數位內容的能力,與人類不完美的記憶根本不同。

Meta 因資料來源陷入多起法律糾紛。今年稍早有法院文件顯示,Meta 稱使用 Libgen 等「影子圖書館」的大量盜版書籍,做為 Llama 模型的訓練資料。訴訟文件稱,Meta 執行長祖克柏(Mark Zuckerberg)不顧公司內部警告,仍批准使用盜版書籍訓練模型。

今年 3 月一份專家分析指出,Meta 可能涉嫌透過 BitTorrent「做種」(seeding),下載約 30% 盜版書籍,增加法律風險。此舉使 Meta 從「合理使用並用於訓練」轉變成「主動散播盜版」,類似訴訟正在全球蔓延,法國出版商和作者也以「史無前例的掠奪行為」來形容,對 Meta 提起訴訟。

Meta 頗具爭議的數據資料策略,反映該公司在 AI 競賽面臨巨大壓力。原先 14 名 Llama 研究論文作者已有 11 人從 Meta 離職,導致 Llama 模型開發受阻,高達 2 兆參數的 Llama 4「Behemoth」模型,近日傳出因模型性能問題延至 2025 年底才會推出。儘管傳以 143 億美元投資新創公司 Scale AI 鞏固資料來源,並挖角其執行長汪滔(Alexandr Wang)加入超級智慧團隊(superintelligence group),Meta 能否在 AI 競賽捲土重來,值得持續觀察。

(首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》