Google 收購 Kaggle 為何撼動 AI、機器學習、資料科學三界?

作者 | 發布日期 2017 年 03 月 10 日 13:47 | 分類 AI 人工智慧 , Big Data , Google follow us in feedly

3 月 8 日的 Google Cloud Next Google 雲端計算開發者大會上,華人 AI 學界的驕傲、Google 雲端首席科學家李飛飛宣布一則重大訊息:Google 收購 Kaggle。



其實,這事近兩天已陸續有風聲傳出。但 Google 和 Kaggle 對媒體總是「無可奉告」的態度,導致大家各自猜測,但無從證實。即便李飛飛在 Next 大會上對全世界宣布,也僅停留在「沒錯,我們是收購了 Kaggle,這對雙方都有好處」層面;對收購細節、未來計畫等一概沒提,更別說收購協定和價格。

但是 Google+Kaggle,即便不進行任何探究,也是震動資料科學、AI、機器學習三界(在很多方面「三界」本是一體)的大事件。其衍生出來的潛藏資訊:對開發者社群的意義、產業走向,以及Google的機器學習布局等──雖然當事者惜字如金,卻為嗅覺敏銳的觀察者帶來巨大的想像空間。這隱約使人聯想到 2014 年 Google 收購 DeepMind:雖後者與 Kaggle 不管在業務還是營運方式都完全不同,但 Kaggle 所掌握的產業資源,只會在 DeepMind 之上;兩次收購對 Google 的意義,同樣位於極高的戰略層面。

▲ 李飛飛宣布 Google 雲收購 Kaggle。

下面我們來整理一下,關於此次收購至今披露的所有資訊。

Kaggle 簡介

凡是玩資料科學和機器學習的老手,有兩個網站一定不會錯過:GitHub 和 Kaggle。前者用來分享,後者進行實戰練習。對不熟悉 Kaggle 的人,先來一段簡介。

簡而言之,Kaggle 是玩資料、ML 的開發者展示功力、揚名立萬的江湖。

它在 2010 創立,專注於舉辦資料科學相關的線上競賽。它吸引大量資料科學家、機器學習開發者參與,為各類現實中的商業難題開發基於資料算法的解決方案。競賽的獲勝者、領先者,在得到對方公司提供的優厚報酬之外,還可引起業內科技巨頭的注意,或許獲得各路 HR 青睞,為自己的職業道路鋪上紅地毯。

因此與 GitHub 不同的地方,Kaggle 為其社群提供一整套服務。其中最有名的是它的招聘服務以及名為 Kaggle Kernels 的程式碼分享工具。

或許因為如此,Kaggle 社群在圈內極受歡迎:用戶基數大、黏著性強。通常認為 Kaggle 平台有幾十萬名資料科學家,至於具體多少,有媒體認為是 50 萬,有人說 80 萬(李飛飛),還有人說超過 100 萬。

總而言之,Kaggle 是當今最大的資料科學家、機器學習開發者社群,其產業地位獨一無二。

大約一年前,Kaggle 開始全力在 AI、機器學習領域著力,相關競賽專案紛紛上馬。李飛飛評論:「Kaggle 是搜尋、分析公用資料集,開發機器學習模型,和提高資料科學專業水準的最佳場所。」

「AI 民主化」的使命

在大會上,李飛飛發表主題為「讓 AI 民主化」的演講。在演講和之後撰寫的文章裡,她對 Google 收購 Kaggle 的意圖給了官方版本的解釋:

我強調 AI 民主化的重要性──我們必須降低進入 AI 領域的門檻,讓 AI 技術盡可能為更多開發者社群、用戶和企業所用,讓 AI 用於解決他們各自的問題和需求。Kaggle 加入Google,能加速這一進程。

講好聽點,推動 AI 技術的分享和推廣,是 Google 收購 Kaggle 背後的「mission」,即使命。

加入 Google 後的 Kaggle

雖然 Google 對收購協定的內容保密到家,我們仍能從雙方透露的資訊看出一些端倪。比如一件事是確定的:Kaggle 將保留獨立品牌和團隊。

Kaggle 創始人 Anthony Goldbloom 也在當晚發文,回顧 Kaggle 創立以來取得的成績,對支持 Kaggle 社群的開發者表示感謝,並透露一些將來的計畫:

 Kaggle 團隊仍會是一個整體,並且是 Google 雲旗下的獨立品牌營運。我們會繼續延伸 Kaggle 上的競賽和開源資料平台;我們會繼續向所有資料科學家、公司、技術敞開懷抱。Kaggle Kernels 會繼續支援各類機器學習程式庫和工具包組成的多樣生態,不管其是否來自 Google。

加入 Google 能讓我們實現更多。此次收購,結合了世界上最大的資料科學社群與最先進的機器學習雲。

加入 Google 後,我們能夠提供社群 Google 雲技術。這將使大家能利用更強大的基礎設施和部署服務(deployment services),進行可延伸的訓練,並幫助 Kaggle 擁有儲存、抓取大型資料集的能力。

李飛飛在大會和部落格上的表態,雖沒有 Anthony Goldbloom 詳細,但也印證了一些 Anthony Goldbloom 提到的要點。比如李飛飛說 Google 雲將為 Kaggle 社群成員提供雲端機器學習設計環境,Kaggle 和 Google 雲將繼續支援訓練和部署服務,並幫助社群儲存、抓取大型資料集。

結合李飛飛對「AI 民主化」的表態,以及在大會上反向搜尋她親手建立的 ImageNet、對資料程式庫重要性進行的強調;雷鋒網認為,應當可以期待 Google 雲在資料上為 Kaggle 提供強力支援,幫助 Kaggle 社群的開發者抓取更多、更有價值的資料集。這確實擊中了資料科學家和機器學習開發者的一大痛點。這無疑也將直接提升 Google 對資料科學、機器學習社群的影響力,以及在其中的口碑和品牌認同。

收購 Kaggle 後的 Google

Google 的核心業務與 AI 緊密相關,也已經成為推動這一輪 AI 技術浪潮的主要玩家之一。AI、資料科學和機器學習對 Google 的戰略意義,毋庸贅言。自從去年 AlphaGo 與李世乭的世紀之戰後,Google 的江湖聲望更是如日中天。

但是,在 AI 應用和技術的各個垂直領域,如自動駕駛、語音辨識、深度學習等,Google 很可能感覺到壓力。眾所周知,Google Waymo 自動駕駛業務並不順利。在語音辨識領域,微軟和 IBM 屢創紀錄。深度學習領域,Facebook AI 實驗室 FAIR,以及 OpenAI 都在生成對抗網路「GAN」前線技術上投入巨大,產出豐厚研究成果。業內人士對 Google 在 AI 技術上「領先」其他對手的印象,已經不再那麼牢固(如果之前稱得上「牢固」)。

想要維持「老大哥」地位,就要進一步投入。而有一個領域是 Google 遠遠甩開對手的:沒錯,我說的是 Tensorflow。在深度學習開源工具上,Tensorflow 的市場佔有率遠超出其他框架、平台。對開發者群體,Google 的影響力有天然優勢,收購 Kaggle 則將這優勢無限擴大。

當然,不要忘記 Kaggle 加入的部門是Google 雲。與競爭對手亞馬遜 AWS、微軟 Asure 相比,Google 雲的地位一直十分尷尬,市場佔有率遠遠落後前兩者。這次 Google Cloud Next 大會,重點其實是宣傳 Google 在雲計算上的巨大投入和決心,而細看 Google 對此次收購的官方表態,也不乏強調 Google 雲將來能提供 Kaggle 的各種支援。Google 或許希望 Kaggle 能成為 Google 雲業務的突破,比如藉 Kaggle 平台讓開發者體驗 Google 雲、為後者宣傳。至於其他玩法,現在不得而知,尚待將來觀察。

另外,外媒紛紛猜測,收購 Kaggle 可使 Google在僱用尖端開發人才上更便利。這是一個十分合情合理的推測。

其他

  • Google與 Kaggle 的合作已經開始

2 月 16 日,Kaggle 與 Google 聯合舉辦了 Google Cloud & YouTube – 8M Video Understanding Challenge。這是迄今規模最大的影片理解挑戰賽。該挑戰要求機器學習開發者,搜尋出自動記號 YouTube 影片的方法。

  • 澳洲媒體的哀嘆:「Google 買走了我們的 Kaggle!」

Anthony Goldbloom 是墨爾本大學畢業生,他於 2010 年在雪梨創辦 Kaggle ,但 2011 年將公司總部遷至舊金山,這次更直接被美國企業收購。不出所料,對這次 Google 收購 Kaggle 報導最積極的當屬澳洲媒體。這再次讓人聯想到 DeepMind──它被收購後英國 AI 圈的反應。

(本文由 雷鋒網 授權轉載,首圖來源:Kaggle

延伸閱讀:

發表迴響