17 萬本盜版書是「ChatGPT 們」變聰明的祕密

「證據」終於來了。7 月 OpenAI 和 Meta 被美國作家 Sarah Silverman、Christopher Golden 和 Richard Kadrey 控告，指兩家公司未經作者同意，就把他們的書拿來當材料訓練大模型。

▲ 演員、作者Sarah Silverman和自傳。（Source：Michael Kovac / FilmMagic）

證據在哪？

OpenAI案件，原告輸入提示詞後，ChatGPT能摘要整本書。Meta案件，Meta大模型LLaMA論文就寫著，訓練資料包括EleutherAI整理的「The Pile」素材，The Pile又含「Books3」資料庫，內容正是網路盜版圖書庫Bibliotik數據。由此可見，當時原告的證據還相對間接。

直到現在，作家和工程師Alex Reisner揭露，Meta大模型背後到底都盜用了哪些作家的書。意外的是，這些「證據」一直都在我們眼前，卻一直沒人看到，這是為什麼？甚至侵權素材的製造者，還一直堅持說這是「正義」之舉。

17萬本盜版書

Alex Reisner的「大專案」起於好奇心：

身為作家和電腦工程師，我一直很好奇生成式AI是用什麼書訓練模型。

今年夏天，Reisner開始在GitHub和Hugging Face等社群找答案，最終找到了The Pile。然而下載The Pile也不代表可以知道Books3有什麼書。因The Pile有800G，大到一般文字編輯器根本沒法看。Reisner寫了一系列程式才能抓取Books3的資料。

沒想到找到的資料沒有任何有書名、作者名等標籤資料，一切都只是「文本」。於是Reisner又另外寫了一個程式抓取ISBN編號（國際標準書號），並將這些數據和其他網路書庫比對，以辨別Books3收錄的書籍。

最後他找到19萬個ISBN，辨識出17萬個書名（實際數量可能略少這數字，因是同一本書不同版），另外2萬個編碼無法找到書名。這些書約三分之一是虛構作品，三分之二非虛構作品，來自大大小小出版社出版品。

能找到的書包括開頭提告OpenAI和Meta的三位作家，可說是Meta LLaMA以盜版書當作訓練材料的直接證據了。其他還有《我的天才女友》作者埃琳娜·費蘭特、《女僕的故事》作者瑪格麗特·愛特伍、史蒂芬‧金、村上春樹、知名美食作家麥可·波倫、驚悚小說家詹姆斯·布蘭登·派特森等許多作品。

除了名作家作品，Reisner還在Books3找到「山達基教」創辦人拉法葉·羅納德·賀伯特102本低俗小說、90本信奉「年輕地球創造論」的牧師約翰·F·麥克阿瑟的書，以及「外星人創造論」支持者艾利希·馮·丹尼肯多部作品。

Reisner指出，雖然Books3資料庫在AI社群以外認知度不高，但在圈內頗受歡迎，因「可以下載，但要找到來源有難度，想瀏覽和分析也同樣很有挑戰性」。像Reisner大費周章寫程式分析比對，還撰文投書媒體更是首次。同時AI圈對Books3也是心照不宣維護，因以Books3創造者的話說，這是確保生成式AI發展不會被大公司壟斷的重要資源。

「盜火者」還是「竊賊」？

如果我們不需要Books3這類東西的確最好，但情況是如果沒有Books3，只有OpenAI可做到正在做的事。

Books3創造者、獨立開發者Shawn Presser對Reisner說。

Presser一開始做Books3，就是為了提供所有開發者「OpenAI等級訓練資料」。2020年Presser下載Bibliotik副本，再改寫駭客Aaron Swartz十多年前的程式，將所有ePub格式圖書轉成純文字──更適合大模型的格式。資料庫部分書籍版權資料遺失，Presser稱是轉換造成的意外，並非刻意為之。

Books3之名也呼應OpenAI提過的「Books1」和「Books2」。2020年時OpenAI論文指出，GPT-3的訓練資料庫包括兩個基於網路書籍合集，人們推測OpenAI的Books1來自「古騰堡計畫」（Project Gutenberg）──專門收集版權過期的圖書。Books2內容是什麼一直無人知曉，有人從資料量猜是類似Bibliotik或Libgen的網路盜版圖書。