Google 推出新的搜尋服務 Dataset Search

作者 | 發布日期 2018 年 09 月 06 日 17:02 | 分類 Big Data , Google , 軟體、系統 follow us in feedly

Google 和資料技術的發展一直齊頭並進,現在 Google 透過更快搜尋數據資料進一步強化大眾和資料的關係。



好消息又來了:Google 再次宣布開放全新的搜尋服務:Dataset Search(資料集搜尋)。

還記得不久前 Google 發表的 Google Scholar(學術搜尋)嗎?當時 Google Scholar 填補了快速查找學術資料的空白;這次 Google 直接將注意力精準聚焦到資料集,簡直「體貼又細心」!

Google 人工智慧研究科學家 Natasha Noy 表示,科學家、研究人員、數據資料記者和其他有興趣使用數據的人,是這個工具的主要受眾,與此同時,Google 認為這些資料集在整個 Google 產品的地位將更突出。

數據工作者的又一「神器」

首先,資料集到底是什麼?Dataset(數據集)又稱為數據集、數據集合或資料集合,是一種由數據資料組成的集合。Dataset 通常以表格形式出現。每一列代表一個特定變量,每一行都對應某一成員資料集的問題。它列出的價值觀為每個變量,如身高和體重的一個物體或價值的隨機數。每個數值稱為數據資料。對應行數,該資料集的數據可能包括一個或多個成員。

從歷史上看,這個術語起源於大型電腦領域,那裡它有明確界定的意義,非常接近現代的電腦檔案。

Natasha Noy 表示,這個新服務會將數萬個不同線上資料集存檔統一起來。那最終這些資料集的歸屬在哪呢?Natasha Noy 談到:「我們想讓這些數據可被發現,但數據仍保留在原始位置。」

如何執行?我們嘗試進行了操作

這個 Dataset Search 怎麼執行的?事實上,即使對組織最完善、數據最豐富的人來說,也需要利用源於外部的數據。

舉個天氣和環境數據的典型例子。

假設你想要將農業數據與天氣現象相關聯以預測作物生長,或者想研究天氣對整個歷史時期發生現象的影響,這種歷史天氣數據,幾乎不可能由單一組織積累和策劃,很可能由 NOAA 和 NASA 等組織隨時提供(註:NOAA 是美國國家海洋和大氣管理局,NASA 是美國國家航空暨太空總署) 。

這些組織會透過專用數據門戶定期策劃和發表數據,因此,如果你需要定期獲取數據,可能需要熟悉透過這些門戶定位數據的過程。當然,你還必須同時關注 NOAA 和 NASA 之外的其他可能消息來源。

如果不僅需要天氣數據,還想找到正確的來源,然後再找到這些來源的更多正確數據,之前一個搜尋介面根本無法做到,現在 Google 開發了 Dataset Search,可達成一個介面就搜尋到,是不是很驚喜很意外?

實際上,Google 對結構化數據的熱愛一直持續,代表性事件就是收購 Metaweb 整合 Google 的知識圖譜,並透過 schema.org 支援結構化詮釋資料。

▲ 搜尋資料集會檢索查詢的多個結果,顯示資料集提供者和時間段。

我們嘗試進入 Dataset Search 官網,發現在搜尋頁面,如果一個資料集直接對應一個出版物,那麼資料集名稱旁邊就會有出版物的連結。此外 Google 還提供參考資料集的出版物大致數量。

諸多問題值得考慮:錯誤內容、排名與盈利的可能

推出這個搜尋,不僅方便專業用戶使用,且對資料集提供商也大有好處。NOAA 的 CDO(首席開發長)Ed Kearns 是該計畫的堅定支持者,並幫助 NOAA 在該工具搜尋了許多資料集。

這種類型的搜尋,長期以來一直是開放資料和科學界許多研究人員的夢想。對 NOAA 而言,一部分工作是與他人共享我們的數據,Dataset Search 對讓更廣泛的用戶社群更容易訪問我們的數據至關重要。

▲ Dataset Search 搜尋後進入某個資料集連結,對一些訊息的排名。

為了避免資料集提供商將內容錯誤描述為「資料集」,Google 能告訴它「這不是一個資料集」或降低排名嗎?Google 並沒有給予明確的應對措施,只表示,Google 會在用戶開始使用該工具後獲得更多經驗去改進,努力提高結果品質。

如何解決被搜出的資料集排名問題呢?Google 表示,對資料集來源頁面使用 Web 排名組合(基於 Google 演算法),並將其與資料集特定信號(如數據品質、引用等)相結合。

再進一步想,如果排除在搜尋排名盈利的可能,Google 哪一天會不會拿它出來營利?比如從銷售通路收集數據,並使用它們來生成具有洞察力的定期報告?

不論如何,這個計畫有助於科學決策,需要的人士儘管放心使用。不過隨著數據價值越來越突顯,Google 也越來越重視,包括雲端計算和 AI 不斷增加投入,大膽猜測一下,Dataset Search 會是 Google 在學術數據領域商業化的第一步。

(本文由 雷鋒網 授權轉載;首圖來源:Google

延伸閱讀: