維基百科經營機構 Wikimedia Foundation 10 日聲明,要求 AI 企業停止未經授權爬取數據,需經官方付費 API 服務 Wikimedia Enterprise 抓取內容。此舉反映非營利組織面對財政壓力,因為 AI 聊天機器人直接回答問題,維基百科流量與同期相比下降 8%。
AI 機器人流量占 65% 造成基礎設施負擔
Wikimedia Foundation 聲明指出,生成式 AI 的能力建基於人類編輯、討論和記錄的知識,而維基百科正是網路知識的核心來源。AI 系統若缺乏人類持續更新的知識,將面臨「模型崩壞」(model collapse)的風險,令 AI 輸出變得不準確、缺乏多樣性且難以驗證。
今年升級機器人偵測系統後,Wikimedia Foundation 發現 AI 機器人占整體流量高達 65%,部分爬蟲更在 5~6 月試圖偽裝成人類用戶爬取,對維基百科伺服器造成巨大負荷。
要求註明來源並使用付費 API
Wikimedia Foundation 提出兩項要求。首先是註明來源(attribution),要求生成式 AI 清晰標示成果使用的人類貢獻內容,以維持內容創作的良性循環。因流量下降將減少志願編輯者和捐款者數量,最終影響 Wikipedia 的內容。
其次是財政支援,AI 企業應透過 Wikimedia Enterprise 平台付費存取內容。這個企業級 API 服務能讓公司在不影響 Wikipedia 伺服器效能的情況下,大規模持續使用其內容。平台現已與 ProRata.ai 等企業合作,後者透過 API 將 Wikipedia 內容整合至搜尋引擎 Gist.ai,同時確保註明來源並支援維基百科技術基礎設施。
AI 訓練數據版權爭議蔓延科技業
維基百科做法反映整個科技產業面對 AI 訓練數據版權爭議的趨勢。蘋果近期被作家和神經科學家控告未經授權使用版權內容訓練 AI 模型,OpenAI 被《紐約時報》起訴使用新聞文章,而 Anthropic 更在集體訴訟同意支付 500,000 名作者 15 億美元和解金。
Wikimedia Foundation 強調,適當註明來源和財政支援,AI 開發者能同時確保自身和維基百科長遠未來。維基百科為全球最高品質訓練資料庫之一,若 AI 開發者不能使用維基百科資料,會使 AI 輸出更不準確和缺乏多樣性。
(本文由 Unwire HK 授權轉載;首圖來源:Unsplash)






