惹眾怒!數千名作家發聲:生成式 AI 也得付版權費

作者 | 發布日期 2023 年 07 月 25 日 7:40 | 分類 AI 人工智慧 , 數位內容 , 網路 line share follow us in feedly line share
惹眾怒!數千名作家發聲:生成式 AI 也得付版權費


基於大語言模型的生成式 AI 繼續「惹眾怒」。

近日8,500多名小說、非小說和詩歌作者聯合簽署致生成式AI領導者的公開信,呼籲OpenAI、Alphabet、Meta、Stability AI、IBM和微軟執行長就在訓練AI時若用到受版權保護的材料,需向作者徵取同意、認可並給予公平酬勞。

信中寫道:「基於大型語言模型的生成式AI技術歸功於我們的著作。這些技術模仿並反省我們的語言、故事、風格和想法。」這說法可能有點偏頗,但細究生成式AI的原理後,倒也不無道理。

生成式AI原理就是利用機器學習模型,學習人工創建的資料庫模式和關係,然後再利用學習模式產生新內容。預訓練資料庫就等於「石油」。以最紅的ChatGPT為例,公開數據顯示ChatGPT訓練量為8千億個單字語言庫,含1,750億個參數,預訓練量達45TB。但ChatGPT如此龐大的資料庫來源卻始終「布滿迷霧」。

OpenAI官方表示,鑑於GPT-4等大規模模型的競爭狀況和安全影響,不再披露資料來源,並含糊其詞表示就是網路、社群媒體、新聞、書籍等。

2020年介紹ChatGPT-3的論文,尚未出名的OpenAI坦言,訓練量15%來自「兩個基於網路的書籍語料庫」。儘管OpenAI並沒有透露資料庫是什麼作品,但有不少爆料者聲稱正是來自侵犯版權免費提供大量電子書的「影子圖書館」。

2月OpenAI遭許多媒體指責,批評未經授權擅自使用其新聞訓練。《華爾街日報》記者問ChatGPT索取訓練新聞來源清單時,回覆列出20家媒體,包括未獲授權的《華爾街日報》,同樣「常在河邊走」的其他生成式AI是否真能「不濕腳」?

種種一切,很難不讓作家對自己版權是否受損充滿疑慮。

AI讓作家陷入困境

公開信談到,過去十年作家收入下降40%,全職作家到2022年收入中位數僅23,000美元,AI入侵可能導致作家境況更困難。呼籲者請求,要求生成式AI領頭者做到以下三點:

  1. 取得生成式AI程序使用受版權保護材料的許可。
  2. 公平補償過去和現在生成式AI程式使用到作品的作者。
  3. 公平補償AI輸出使用到作品的作者,無論輸出是否違反現行法律。

現在壓力轉移到生成式AI領頭者了。

許多生成式AI領頭者公開場合都對版權保護做過「口頭」承諾。5月美國國會聽證會,OpenAI CEO阿特曼就強調內容創作者將受益於AI工具,並掌握作品所有權和控制權,之後阿特曼更化身「傳教士」巡迴世界,為生成式AI助威。

現世報「打臉」太快,層出不窮的隱私洩漏訴訟、版權侵犯事件,將這封呼籲信徹底擺上檯面,成了離不開的「催命符」。

(本文由 愛范兒 授權轉載;首圖來源:shutterstock)