ChatGPT 會說人話後，AI 變本加厲污染網路

人類最擔心的事還是發生了。隨意看看網路新聞，卻分不清出自 AI 還是人類之手；忙裡偷閒玩遊戲，也分不清隊友是 AI 機器人還是真人。

中國直播帶貨的數位藝人自顧自啃雞爪，與賣力吆喝的真人助播形成割裂場景。外媒 404 media 報導，原本追蹤和分析多種語言不同單字詞彙流行度和使用率的專案 Wordfreq，現在成為最新受害者。

陽光明媚處還是有陰影，顯然 Wordfreq 不是第一個也不會是最後一個受害者。換句話說，最終買單者還是人類。

GPT 污染語言，人類買單

「生成式 AI 污染數據，我認為沒有人掌握 2021 年後人類語言的可靠資訊」，這句來自 Wordfreq 專案建立者羅賓·史皮爾的吶喊，充滿無奈憤懣。而要探究原委，還得從 Wordfreq 來歷談起。

分析維基百科、電影和電視字幕、新聞報導、Reddit 等網站內容，Wordfreq 試圖追蹤 40 多種語言變遷，研究跟著俚語和流行文化不斷變化的語言習慣。對語言學家、作家和翻譯人員而言，Wordfreq 無疑是寶庫，但 GitHub 的一句聲明「專案不再更新」，悲情地敲響了喪鐘。

抓取網路資料是 Wordfreq 的生命線，但生成式 AI 崛起讓 AI 文字大行其道，史皮爾舉例，以前人們很少用「delve」這個詞，但 ChatGPT 將之變成口頭禪，讓失真統計影響分析人類語言習慣的準確性。

如果還不夠直接，GPT 的陳腔濫調如「總之」、「綜上所述」等濫用更醒目。趨勢逐漸滲透學術寫作乃至文學創作，史丹佛大學報告出，ChatGPT 短短五個月內就成為許多專家學者的「寫作神器」，計算機科學幾乎每六篇摘要、每七篇引言，就有一篇出自 AI 之手。

之後便是生成式 AI「大舉入侵」人類寫作風格。

義大利國際高等研究院博士生耿明萌研究成果就像鏡子，照出 ChatGPT 詞語偏好，也證實 AI 對學術論文的影響力。分析 arXiv 破百萬篇論文摘要後，耿明萌發現，論文用詞於 ChatGPT 普及後有明顯變化，「significant」等頻率大幅上升，「is」和「are」等介係詞減少約 10%。

多數情況生成式 AI 可讓創造力 60 分的人提高到 70 分甚至更高，但創作時雖然個人創造力和寫作品質提高，卻讓集體創意更無趣又同質化。

UCL 和英國艾希特大學學者於《Science》發表研究，請 500 名參與者用 AI 隨機撰寫約八行篇幅的短文，分析目標受眾。結果是 AI 寫的故事更有「創造性」，但相似度也驚人地高。

當生成式 AI 文本如無孔不入的污染物，大量湧入網路，對 Wordfreq 或人類來說，都是利遠小於弊。

反爬蟲戰爭開始，Wordfreq 遭殃

Wordfreq 專案終止算得上巨頭爬蟲戰爭夾縫中的犧牲品。AI 發展離不開演算法、算力和資料量支持，儘管 AI 產生文字與人類真實語言相比有差距，但文法和邏輯性越來越接近。

風平浪靜的水面之下，AI 爬文與反爬文的無聲戰爭逐漸升起。

用機器人爬抓各網站似乎成了禁忌，不少新聞報導留言區充斥網友唾棄，Wordfreq 本質也是爬取各語言文本構建的。生成式 AI 未盛行時，Wordfreq 也有過風光時期，只要遵守網站 robots.txt 規定，抓取公開數據都 OK，這是網站與爬蟲的默契，指示爬蟲哪些內容可抓哪些不行。

網站設置 robots.txt 限制協定時，就像豎起禁止擅自進入的號誌。如果爬蟲違反 robots.txt 協定，或突破網站反爬蟲手法取得資料，就可能構成不正當競爭或侵犯版權等違法行為。但模型對高品質資料的需求日益增長，爬取與反爬取的戰爭就愈發激烈。

回顧過去，關於生成式 AI 巨頭爬蟲與反爬蟲數據的糾紛比比皆是，為首的自然是 OpenAI 和 Google。去年 OpenAI 特地推出網路爬蟲工具 GPTBot，聲稱抓取網頁數據訓練 AI 模型，但顯然沒有媒體被爬蟲還不介意。意識到數據和版權重要性的媒體遵循一手交錢，一手交數據的商業邏輯。

路透社研究顯示，截至 2023 年底，十國熱門新聞網站，近一半擋住 OpenAI 爬蟲（Crawler），近四分之一網站也對 Google 爬蟲採相同措施。後來故事大家應該很熟悉，OpenAI 三天兩頭就被傳統媒體告，都是版權官司。到今年官司纏身的 OpenAI 才老老實實和新聞出版商簽約。

只是之前的高牆、資料收費等都讓 Wordfreq 成為「數據荒」的犧牲品。史皮爾指 Twitter 和 Reddit（Wordfreq 包含的網站）API 開始收費，使網路抓數據更困難。「過去免費資訊要錢還變貴了，我不想加入任何與生成式 AI 混淆，或可能使生成式 AI 受益的事。」

即便能用錢換數據，但總有用盡的一天。調研公司 Epoch AI 預測，網路可用高品質數據 2028 年會耗盡，這業界稱之為「數據牆」，可能成為減緩 AI 發展的最大障礙。於是不少大模型廠商目光轉向合成資料庫，主打用 AI 訓練 AI。

用 AI 訓練 AI，可能越練越「傻」

我的直覺是，網路文本都是狗屎，用 AI 訓練 AI 簡直是浪費算力。

當 Llama 3.1-405B 以巨大實力差距橫掃一眾開源大模型，領導 Llama 的 Meta AI 研究員 Thomas Scialom 接受採訪時說出此句，他說 Llama 3 訓練並不靠人類答案，而是完全基於 Llama 2 的二三甚至四手資料。

Scialom 或許太粗暴，但有其道理。網路每天增加大量資訊，但訓練 AI 從來就是寧缺毋濫的單選題，若資料都是錯誤和雜訊，模型自然會學習到「瑕疵」，預測和分類準確性可想而知。且低品質數據往往充斥偏見，無法真正代表正規分布，導致模型產生有偏見回答，教科文組織總幹事阿祖萊也警告：「新 AI 工具有不知不覺改變千百萬人認知的力量，故即便生成式內容極微小的性別偏見，也可能大大加劇現實世界的不平等。」

但合成數據也未必是解決「數據牆」難題的靈丹妙藥。最近牛津劍橋大學研究員發現，模型使用 AI 產生的資料庫，輸出品質會逐漸下降，最終只剩無意義內容，也就是俗稱的模型崩潰。負責人 Ilia Shumailov 以拍照譬喻：

如果拍照、掃描、列印出來後再拍照，不斷重複，照片會逐漸出現「雜訊」，最後會得到一張全黑照片。

越來越多 AI 垃圾網頁污染網路，訓練 AI 模型的素材當然也受污染。工程師問答社群 Stack Overflow 就深受 AI 其害。ChatGPT 爆紅之初，Stack Overflow 便宣佈「臨時禁用」，「從 ChatGPT 獲正確答案的平均比例太低了」，官方聲明也吐槽。專業用戶量畢竟有限，不可能核對所有答案，ChatGPT 錯誤率又很明顯。當 AI 污染社群，無計可施的人類只能一禁了之。

圖片部分 AI 模型趨向重現最常見資料，多次反覆運算後，可能連最初來源都忘得一乾二淨。這都指向惡性循環：AI 產生低品質乃至錯誤資訊，與人類資訊混淆，低品質數據又餵 AI 吃，最終導致濫用 AI 反噬。人類如果意識到數位足跡會成為自己將來的飼料，或許會更謹慎對待留在網路的每句話。

（本文由愛范兒授權轉載；首圖來源：shutterstock）