防堵 AI「資訊污染」源頭，專家：人類原創內容是關鍵防線

隨著 ChatGPT 於 2022 年底的推出，網路上大量湧現 AI 產生的內容，導致人類原創內容變得越來越稀少。因此，許多研究者開始著手保存 2021 年及之前的人類生成內容，因為這些內容被視為數位世界的根基，能夠幫助 AI 模型更好地理解人類思維。根據 Cloudflare 的副總裁 Will Allen 的說法，這些早期的資料對於確保 AI 模型的準確性至關重要，尤其是在醫療、法律等專業領域。

隨著AI生成內容的普及，許多使用者發現自己在尋找資訊時，必須特別注意內容的生成日期，以避免接觸到AI生成的SEO誘餌。創業投資人Paul Graham就曾提到，他在搜尋如何設定披薩烤箱的溫度時，發現自己不得不尋找較舊的資料，以確保這些資訊不是由AI生成的。

為了應對這一挑戰，Cloudflare的技術長John Graham-Cumming啟動了LowBackgroundSteel.ai項目，為了保存2022年前的資料，這些資料被視為未受AI污染的內容。這些資料的保存不僅是為了保護人類的數位資產，也是為了確保未來的AI模型能夠基於真實的數據進行訓練，而不是僅仰賴於其他AI生成的內容。

此外，語言學家Robyn Speer也指出，生成式AI已經污染了網路數據，這使得網路成為一個不可靠的指標，無法真實反映人類的寫作和思考方式。隨著AI技術的進步，對於保存人類生成內容的需求變得愈加迫切，這不僅關乎技術的發展，更關乎我們如何理解和記錄人類的共同現實。

（首圖來源：pixabay）