研究揭 Llama 模型重現 42%《哈利波特》內容，版權訴訟添有力證據

一項新研究揭露 Meta Llama 3.1 模型能夠有效記憶並重現《Harry Potter and the Sorcerer’s Stone》（哈利波特：神秘的魔法石）近半數內容，表明逐字重現受版權保護的內容並非某些 AI 實驗室所稱「附加行為」，而是受歡迎內容用來訓練模型的有力證據。

AI 浪潮興起，內容創作者指控模型如同侵權複製機器，科技公司則辯稱模型只是學習統計關聯，沒有儲存受版權保護的作品，雙方在法律上各執一詞。

來自史丹佛大學、康乃爾大學及西維吉尼亞大學研究人員的論文指出，Meta Llama 3.1 70B 模型記得 42%《哈利波特：神秘的魔法石》文字內容，遠高於第一代 Llama 模型的 4.4%，顯示 Meta 更新後的訓練方法大幅增強模型保留並重現版權內容的能力。

研究人員也發現，同樣 Llama 3.1 70B 模型對作家凱德瑞（Richard Kadrey）的小說《Sandman Slim》僅記憶 0.13%，順帶一提他是對 Meta 提起集體訴訟的原告之一。當受歡迎的書籍被大量記住，其他大多數書籍卻沒有，可能使大規模集體訴訟的認證工作變得複雜，卻為個別版權持有人提供強而有力的證據。

有關 AI 訓練和版權之間的辯論，已從模型輸出內容是否侵權，擴展到模型本身是否構成違法複製，上述研究進一步支持後者論點。史丹佛大學法學教授、也是這項研究共同作者的萊姆利（Mark Lemley）表示，研究結果顯示模型包含「法律會將模型本身稱為書籍部分內容的副本」。

這個觀點也獲得美國聯邦政府部門的重視，美國著作權局（U.S. Copyright Office，USCO）今年 5 月發表 108 頁報告指出，若模型能重現訓練資料中的「大量受保護的表達」，模型內部的權重可能被視為侵權複製品。這份報告明確駁斥將 AI 訓練比擬成人類學習的說法，並指出 AI 完美複製數位內容的能力，與人類不完美的記憶根本不同。

Meta 因資料來源陷入多起法律糾紛。今年稍早有法院文件顯示，Meta 稱使用 Libgen 等「影子圖書館」的大量盜版書籍，做為 Llama 模型的訓練資料。訴訟文件稱，Meta 執行長祖克柏（Mark Zuckerberg）不顧公司內部警告，仍批准使用盜版書籍訓練模型。

今年 3 月一份專家分析指出，Meta 可能涉嫌透過 BitTorrent「做種」（seeding），下載約 30% 盜版書籍，增加法律風險。此舉使 Meta 從「合理使用並用於訓練」轉變成「主動散播盜版」，類似訴訟正在全球蔓延，法國出版商和作者也以「史無前例的掠奪行為」來形容，對 Meta 提起訴訟。

Meta 頗具爭議的數據資料策略，反映該公司在 AI 競賽面臨巨大壓力。原先 14 名 Llama 研究論文作者已有 11 人從 Meta 離職，導致 Llama 模型開發受阻，高達 2 兆參數的 Llama 4「Behemoth」模型，近日傳出因模型性能問題延至 2025 年底才會推出。儘管傳以 143 億美元投資新創公司 Scale AI 鞏固資料來源，並挖角其執行長汪滔（Alexandr Wang）加入超級智慧團隊（superintelligence group），Meta 能否在 AI 競賽捲土重來，值得持續觀察。