惹眾怒！數千名作家發聲：生成式 AI 也得付版權費

基於大語言模型的生成式 AI 繼續「惹眾怒」。

近日8,500多名小說、非小說和詩歌作者聯合簽署致生成式AI領導者的公開信，呼籲OpenAI、Alphabet、Meta、Stability AI、IBM和微軟執行長就在訓練AI時若用到受版權保護的材料，需向作者徵取同意、認可並給予公平酬勞。

信中寫道：「基於大型語言模型的生成式AI技術歸功於我們的著作。這些技術模仿並反省我們的語言、故事、風格和想法。」這說法可能有點偏頗，但細究生成式AI的原理後，倒也不無道理。

生成式AI原理就是利用機器學習模型，學習人工創建的資料庫模式和關係，然後再利用學習模式產生新內容。預訓練資料庫就等於「石油」。以最紅的ChatGPT為例，公開數據顯示ChatGPT訓練量為8千億個單字語言庫，含1,750億個參數，預訓練量達45TB。但ChatGPT如此龐大的資料庫來源卻始終「布滿迷霧」。

OpenAI官方表示，鑑於GPT-4等大規模模型的競爭狀況和安全影響，不再披露資料來源，並含糊其詞表示就是網路、社群媒體、新聞、書籍等。

2020年介紹ChatGPT-3的論文，尚未出名的OpenAI坦言，訓練量15%來自「兩個基於網路的書籍語料庫」。儘管OpenAI並沒有透露資料庫是什麼作品，但有不少爆料者聲稱正是來自侵犯版權免費提供大量電子書的「影子圖書館」。

2月OpenAI遭許多媒體指責，批評未經授權擅自使用其新聞訓練。《華爾街日報》記者問ChatGPT索取訓練新聞來源清單時，回覆列出20家媒體，包括未獲授權的《華爾街日報》，同樣「常在河邊走」的其他生成式AI是否真能「不濕腳」？

種種一切，很難不讓作家對自己版權是否受損充滿疑慮。