如果某個網站關閉或遭到大規模變動,Google 搜尋提供「頁庫存檔」功能可以一窺網站過去樣貌以及相關資訊,然而這項功能已被悄悄移除。
經營 Google 搜尋聯絡員(Google SearchLiaison)官方帳號的 Danny Sullivan 透過推文證實,Google 搜尋不再提供「頁庫存檔」功能。他談道網路世界和人們需求有了很大轉變,Google 決定將這項功能「退役」。
「頁庫存檔」功能過去出現在每項 Google 搜尋結果旁邊的下拉式選單,當 Google 網路爬蟲(web crawler)在網路尋找全新或更新後的網頁,會以快取方式保留特定時間點的網頁快照,這使 Google 幾乎對整個網際網路進行備份,累積的龐大資料量可能難以估算。
早期「頁庫存檔」只有純文字版,但 Google 網路爬蟲一步步累積豐富的網站資料,比方說 JavaScript(目前有專門的網路爬蟲收集這一塊)。許多網路爬蟲爬來的詳細資訊處於保密狀態,以躲避 SEO 和垃圾郵件騷擾。
現在從 Google 搜尋已經看不到任何「頁庫存檔」,不過你仍有機會找出特定網站「頁庫存檔」,方法是在瀏覽器網址列輸入「https://webcache.googleusercontent.com/search?q=cache:」緊接著網址,甚至以「cache:」緊接著網址即可。以《科技新報》為例,即是「https://webcache.googleusercontent.com/search?q=cache:technews.tw」以及「cache:technews.tw」就會顯示特定時間點的網頁快照,目前不確定這種方法是否會持續下去。
此外,Danny Sullivan 也建議如有相關需求,可以使用網際網路檔案館(Internet Archive)提供的「網路時光機」(Wayback Machine)服務。
Gogole 正處於削減營運成本的關鍵時期,同時將資源投注在 AI 以及其他優先事項,因此假設 Google 開始刪除快取資料,可能釋放大量資源。
(首圖來源:科技新報)