Perplexity 再爆爭議,遭控「隱形爬蟲」繞過封鎖抓取網站內容

作者 | 發布日期 2025 年 08 月 05 日 13:15 | 分類 AI 人工智慧 , 數位內容 , 網路 line share Linkedin share follow us in feedly line share
Loading...
Perplexity 再爆爭議,遭控「隱形爬蟲」繞過封鎖抓取網站內容

根據 Cloudflare 的一份新報告,Perplexity 的網路爬蟲被指控再次繞過網站的限制,進行不當的資料擷取。

報告指出,Perplexity的機器人似乎正在進行「隱形爬蟲」操作,透過改變User-Agent標頭與輪換IP所屬自治系統(ASN)來繞過robots.txt及Web應用防火牆(WAF)的限制。

robots.txt是一種簡單的檔案,網站用來告訴網路爬蟲哪些頁面允許訪問、哪些禁止抓取。Perplexity的官方爬蟲包括「PerplexityBot」和「Perplexity-User」。在Cloudflare的測試中,即使這些特定的機器人被robots.txt封鎖,Perplexity仍然能夠顯示一個新的、未編入索引的網站內容。這種行為也延伸到具有特定Web應用防火牆(WAF)規則的網站,這些規則限制了網路爬蟲的訪問。

Cloudflare認為,Perplexity可能透過使用「一種旨在模仿macOS上Google Chrome的通用瀏覽器」來繞過這些障礙。根據Cloudflare的測試,該公司的未申報爬蟲還能夠輪換使用不在Perplexity官方IP範圍內的IP地址,以突破防火牆。Cloudflare指出,Perplexity似乎也在使用自動系統號碼(ASN)來進行相同的操作,報告中提到該爬蟲在「數以萬計的域名和每天數百萬的請求中切換ASN」。

Cloudflare已將Perplexity的機器人從其驗證機器人名單中移除,並實施了一種辨識和阻止Perplexity隱形爬蟲訪問其客戶內容的方法。這反映了Cloudflare對AI爬蟲影響的重視與應對策略。

對於訓練AI模型的公司來說,網站的最新資訊至關重要,尤其是像Perplexity這樣的服務被用作搜尋引擎的替代品。Perplexity過去也曾被發現繞過規則以保持最新狀態。多個網站在2024年報告稱,Perplexity仍然在訪問他們的內容,儘管他們在robots.txt中禁止了這一行為,該公司當時將此責任歸咎於其使用的第三方網路爬蟲。Perplexity隨後與多家出版商合作,分享從其內容旁邊顯示的廣告中獲得的收入,似乎是對其過去行為的補償。

阻止公司從網路上擷取內容的行為可能仍將是一場貓捉老鼠的遊戲。根據Cloudflare的報告,AI爬蟲流量於近年急劇增長,Perplexity爬蟲流量增幅甚至高達1,574倍,遠超Google和OpenAI GPTBot。

(首圖來源:shutterstock)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》