擔心成為 AI 訓練後門，媒體集體限制網際網路檔案館存取

隨著人工智慧的興起，媒體對於網際網路檔案館（Internet Archive）的使用開始感到擔憂，並採取行動封鎖其存取內容的權限。這些媒體包括《衛報》（The Guardian）、《紐約時報》（The New York Times）、《金融時報》（Financial Times）和社群論壇 Reddit，擔心 AI 公司可能利用網際網路檔案館的資料庫為繞過版權保護的手段。

《衛報》的商務事務與授權負責人羅伯特·哈恩（Robert Hahn）指出，許多 AI 企業尋求「隨時可用的結構化資料庫」，因此網際網路檔案館的 API 成為了他們的目標。哈恩表示，這些企業可能會將自己的機器連接到網際網路檔案館，從中提取智慧財產。

《紐約時報》也採取了類似措施，封鎖了網際網路檔案館的爬蟲，因為其「回溯機器」（Wayback Machine）提供了未經授權的無限制存取，這使得 AI 公司能夠輕易獲取其內容。與此同時，《金融時報》則選擇在付費內容上封鎖網際網路檔案館的爬蟲，僅允許公開報導被收錄，這與對 OpenAI、Anthropic 和 Perplexity 爬蟲的封鎖作法類似。

這項行動反映了媒體與 AI 公司之間日益加劇的法律與技術角力。許多媒體已經對 AI 企業提起訴訟，指控其不當存取用於訓練大型語言模型的內容。舉例來說，《紐約時報》已對 OpenAI 和微軟提起訴訟，而《華爾街日報》和《紐約郵報》則針對 Perplexity 提起訴訟。

這些封鎖措施也引發批評，許多人擔心這會損害民眾存取歷史紀錄的權利，而這對記者、研究人員與維護透明度至關重要。網際網路檔案館創辦人布魯斯特·卡利（Brewster Kahle）警告，這樣的行動可能會減少歷史資料的可獲得性，並使其成為 AI 緊張局勢下的附帶損害。