
隨著 ChatGPT 於 2022 年底的推出,網路上大量湧現 AI 產生的內容,導致人類原創內容變得越來越稀少。因此,許多研究者開始著手保存 2021 年及之前的人類生成內容,因為這些內容被視為數位世界的根基,能夠幫助 AI 模型更好地理解人類思維。根據 Cloudflare 的副總裁 Will Allen 的說法,這些早期的資料對於確保 AI 模型的準確性至關重要,尤其是在醫療、法律等專業領域。
隨著AI生成內容的普及,許多使用者發現自己在尋找資訊時,必須特別注意內容的生成日期,以避免接觸到AI生成的SEO誘餌。創業投資人Paul Graham就曾提到,他在搜尋如何設定披薩烤箱的溫度時,發現自己不得不尋找較舊的資料,以確保這些資訊不是由AI生成的。
為了應對這一挑戰,Cloudflare的技術長John Graham-Cumming啟動了LowBackgroundSteel.ai項目,為了保存2022年前的資料,這些資料被視為未受AI污染的內容。這些資料的保存不僅是為了保護人類的數位資產,也是為了確保未來的AI模型能夠基於真實的數據進行訓練,而不是僅仰賴於其他AI生成的內容。
此外,語言學家Robyn Speer也指出,生成式AI已經污染了網路數據,這使得網路成為一個不可靠的指標,無法真實反映人類的寫作和思考方式。隨著AI技術的進步,對於保存人類生成內容的需求變得愈加迫切,這不僅關乎技術的發展,更關乎我們如何理解和記錄人類的共同現實。
- Thanks to ChatGPT, the pure internet is gone. Did anyone save a copy?
- What Happens if the Internet Archive Goes Dark?
(首圖來源:pixabay)