GPT-4 訓練內容若偏奇科幻小說可能影響表現

大型語言模型訓練用的龐大資料庫來源繁多，OpenAI 未公開過來源，但有學者分析，發現含不少知名小說內容，多是科幻和奇幻小說。

加州大學柏克萊分校學者發表論文，研究 ChatGPT / GPT-4 有多少本小說內容。OpenAI 模型訓練過程含大量版權物，收錄標準視網路出現頻率高低，最有名的小說有《哈利波特》、《魔戒》、《飢餓遊戲》、《銀河便車指南》、《一九八四》和《冰與火之歌》等。

學者強調並非嘗試完全解開 GPT-4 訓練資料庫謎團，這些小說也並非完整收錄至模型，只研究小說內容與模型表現是否有關。而他們發現，GPT-4 訓練用小說多是科幻和奇幻，其他類作品相對少，國際英語文學作品和黑人作品就不多。

模型訓練偏重科幻和奇幻小說，對敘事和表現的影響值得思考，確保訓練模型時用什麼資料透明公開很重要，因此開源模型會是更好方式，希望此研究協助提升收集資料訓練時的負責任標準。另一問題是，當更多版權物內容進入大型語言模型，開發科技企業將會遇到更多版權法律糾紛，到底訓練模型是否屬「公平使用」，只能留待法院判定。