錯用 AI 內容訓練生成式 AI,會引發如近親繁殖突變 AI 模型與品質「崩潰」

作者 | 發布日期 2023 年 09 月 05 日 8:00 | 分類 AI 人工智慧 line share follow us in feedly line share
錯用 AI 內容訓練生成式 AI,會引發如近親繁殖突變 AI 模型與品質「崩潰」


生成式 AI 已成兵家必爭之地,網路早充斥許多 AI 產生文章、論文及研究報告,CNET、Gizmodo 等科技新聞網站也嘗試 AI 寫新聞,甚至亞馬遜網路書店開賣各種 ChatGPT 掛名撰寫或合著書籍。不用多少年,網路就有更多各樣 AI 產生文章,有可能被其他生成式 AI 當成訓練資料,形成類似生物界「近親繁殖」的「模型崩潰」現象,屆時 AI 只會產生品質愈來愈低下甚至大同小異的內容。

最近英國牛津大學和劍橋大學等大學 AI 研究員團隊發現,AI 產生內容網路大量傳播,大型語言模型有可能會用到其他 AI 內容訓練,回應用戶詢問時輸出低品質內容,研究員將這種現象稱為「模型崩潰」(model collapse)。

其他 AI 研究人員也紛紛用不同專業術語描述這種現象,史丹佛大學和萊斯大學(Rice university)研究員 7 月論文稱為「模型自用障礙」(Model Autography Disorder),亦即 AI 用其他 AI 產生內容自我訓練等「自用」循環,可能導致生成式 AI「註定」出現圖像和文字產生「品質」及「多樣性」下降。

澳洲新興技術研究實驗室(Emerging Technologies Research Lab)AI 研究資深研究員 Jathan Sadowski 將這現象稱為「哈布斯堡 AI」(Hasburg AI),亦即 AI 系統用其他生成式 AI 輸出大量訓練,可能產生「誇大不實、荒誕不經特點」的「近親繁殖突變」(inbred mutant)反應。

儘管這些現象影響性不太清楚,但技術專家認為「模型崩潰」和 AI 近親繁殖可能會使 AI 模型難確定訓練原始資料來源,這使媒體為了確保精確資訊,並杜絕自身內容被別人拿去訓練 AI,決定限制網路內容,甚至豎起付費牆。矽谷顧問公司 Constellation Research 執行長王瑞光部落格文章表示,將來網路恐進入「公開資訊的黑暗時代」。

新聞網站可靠性評估公司 NewsGuard 8 月 28 日)報告指出,共發現 452 家 AI 產生不可靠新聞網站,充斥錯誤報導,也幾乎沒人監督。NewsGuard 指這類網站通常會取個十分通俗的名稱,如 iBusiness Day、Ireland Top News 或 Daily Time Update,使用者通常不疑有他而當成正準新聞來源,助長錯誤資訊傳播甚至加速生成式 AI 模型崩潰。

(首圖來源:sutterstock)