GPT-4 訓練內容若偏奇科幻小說可能影響表現

作者 | 發布日期 2023 年 05 月 04 日 8:10 | 分類 AI 人工智慧 , Big Data , 數位內容 line share follow us in feedly line share
GPT-4 訓練內容若偏奇科幻小說可能影響表現


大型語言模型訓練用的龐大資料庫來源繁多,OpenAI 未公開過來源,但有學者分析,發現含不少知名小說內容,多是科幻和奇幻小說。

加州大學柏克萊分校學者發表論文,研究 ChatGPT / GPT-4 有多少本小說內容。OpenAI 模型訓練過程含大量版權物,收錄標準視網路出現頻率高低,最有名的小說有《哈利波特》、《魔戒》、《飢餓遊戲》、《銀河便車指南》、《一九八四》和《冰與火之歌》等。

學者強調並非嘗試完全解開 GPT-4 訓練資料庫謎團,這些小說也並非完整收錄至模型,只研究小說內容與模型表現是否有關。而他們發現,GPT-4 訓練用小說多是科幻和奇幻,其他類作品相對少,國際英語文學作品和黑人作品就不多。

模型訓練偏重科幻和奇幻小說,對敘事和表現的影響值得思考,確保訓練模型時用什麼資料透明公開很重要,因此開源模型會是更好方式,希望此研究協助提升收集資料訓練時的負責任標準。另一問題是,當更多版權物內容進入大型語言模型,開發科技企業將會遇到更多版權法律糾紛,到底訓練模型是否屬「公平使用」,只能留待法院判定。

(本文由 Unwire Pro 授權轉載;首圖來源:Pixabay