「百度大數據引擎」:邁向巨量資料的世界

作者 | 發布日期 2014 年 04 月 25 日 17:11 | 分類 伺服器 , 雲端
17788981335633907702

2014 年 4 月 24 日百度公司舉行技術開放日活動,CEO 李彥宏現身發表百度大數據引擎,足以顯示百度公司對於這一產品的重視程度,大數據引擎包括雲端開放、資料處理、演算法等方面,這將是未來百度業務重要的成長機會。



百度大數據引擎由三部分構成,首先是開放雲端平台,有別於面向小型開發者的百度雲平台,開放雲是百度的大規模分佈式運算和超大容量的雲端存儲,主要是為有大數據處理需求的公司和機構。百度開放雲擁有1.2萬台單集群,也是全球首家大規模採用 ARM 服務器構建雲端平台的公司,ARM 處理器最大的特徵就是能耗小。

2014042512092241761

數據工廠是基於雲端存儲平台之上的數據處理軟體系統,和數據庫處理軟體的原理接近,數據工廠主要應付 100TB 以上甚至更大的數據。百度數據工廠支援 100TB 以上的異構數據查詢、設置各種查詢場景,查詢數據速度可達每秒 100GB 以上。

百度大腦是百度大數據引擎最核心的部分,主要功能是大規模機器學習和深度分析能力,基於百度多年來在人工智慧方面的研發能力,百度大腦分析網路共有 200 億個參數,能夠識別分析語音、圖像和文本,百度大腦的分析能力已經為不少 App 服務。

百度大數據引擎初期上線將採用邀請制和免費模式,在政府機構、醫療、金融、教育、零售等產業展開合作。百度將專注於讓更多傳統產業使用大數據分析,利用數據的價值。比如在醫療方面的應用,通過對全球數百人心髒病患者的分析,從患者中找出共性並給予相應的人群提醒,及早採取預防措施,提高人們對於疾病的預防能力。

百度大數據引擎的發展與百度公司自身的營收也有著非常高的相關性。衡量大規模機器學習能力有兩個維度,一是機器的規模、而是可處理的特徵向量的大小。在 2010 年時百度的機器規模約為幾百台服務器,特徵向量處理水平約為 10 萬,當時百度公司年營收為 70 億元人民幣左右;2012 年百度的機器規模達到了 10 萬台,百度公司年收入成長到 150 億元人民幣,在特徵向量處理水平達到巔峰後啟動深度學習研究,這將是百度大數據引擎發展的重點。 

發表迴響