IBM 攜手 Spark，擁抱機器學習的下一個世代

Spark 是目前相當受歡迎的開源叢集運算架構，相較於 Hadoop，Spark 擁有敏捷快速的效能和便於應用的優勢，因其採用記憶體儲存數據資料，使它擁有高效運算；而通用的 API 協助使用者編寫複雜的平行運算程式，讓 Spark 程式更容易開發和理解。憑藉高效能優勢，Spark 已成為機器學習的重要工具。 IBM 日前宣布加入 Spark 社群，IBM 期望和 Spark 社群暨其核心關係企業 Databricks 合作，共同引領海量資料及機器學習領域邁向未來發展。

強化 Spark 的機器學習能力、創新演算法開發

台灣 IBM 軟體事業處商業分析業務協理胡育銘表示，IBM 美國舊金山 Spark 技術中心有超過 200 位的技術人員正在將 Spark 技術具體實現在企業應用中。同時，也將 Spark 嵌入 IBM 領先業界的分析和商務平台，讓 Spark 成為 IBM Bluemix 平台上的服務之一。另外，IBM 在全球十多個實驗室將投入超過 3,500 名研發人員展開與 Spark 相關的專案，並讓 Spark 開放生態系能使用 IBM 研發超過十年的機器學習技術–SystemML，IBM 的認知運算系統 Watson（華生）便整合許多 SystemML 機器學習的功能。此次 IBM 與 Databricks 合作，即是希望結合 SystemML 的功能，讓 Spark 具有更強大的機器學習能力，以及讓資料科學家更專注於演算法的應用，而非專注於枝微末節的技術。

Open Data Platform（ODP）是眾多資訊企業聯合成立的 Hadoop 資料平台，然而對大部分企業用戶而言，開源並不代表可直接使用，所以在開源之上又推出 Hadoop 資料平台。希望在選擇 Hadoop 資料平台中的核心元件時，大家可以選用公共、統一的代碼。如此，透過使用 Hadoop 資料平台，使用者可不再受限於特定廠商的開放原始碼，既利用開源的好處，同時也讓企業用戶不再備受束縛。胡育銘進一步表示，IBM 一直致力於將企業客戶的需求與最新技術進行有效銜接，然而新技術很多，很可能會出現訊息孤島的情形，我們能將新的技術為企業需求真正合而為一，將所謂的單點和孤島進行整合。IBM 對企業應用的豐富經驗是許多商業分析解決方案供應商無可比擬的，例如新元件一直出現以及重要技術持續變化，透過 Open Data Platform （ODP）開放平台，讓多家資訊公司在平台上貢獻經驗與想法，為企業客戶提供服務。

IBM 專精於分析探勘語言及 SQL 關聯式資料庫領域已長達 30 多年，具備大量的優化技術。此外，SPSS 的許多預測分析產品的演算法也可與 Spark 相互結合，因為 SPSS 得以讓 Spark 大幅提升處理資訊的資料量、速度與能力。未來IBM將陸續推出 Spark 系列產品，包括 Watson Analytics、DataWorks、PuerData 以及其他解決方案。

全球 IBM 投資超過兩百五十億美元培養 Spark 技術人才

Spark 具備敏捷快速、便於應用的特性，而其開源屬性可在全球持續改進，未來 IBM 的專家將與 Apache Spark 開放社群合作，推動先進機器學習技術，並加快智能創新業務應用開發的速度。IBM 在開放原始碼創新領域已經耕耘多年，我們深信開源的力量是客戶創造價值的根源，IBM 將全力支持 Spark，將其作為推動分析的基礎技術平台，從根本上加速推動業務創新，協助客戶部署和運用 Spark 推動商業分析策略，實現業務轉型和差異化競爭優勢。

除支援 Spark 之外，IBM 透過向下扎根方式與大中華區大專院校合作，如宣佈投資 1 億美元，在大中華推動「U100」計畫；在台灣，IBM 已在政大、台大、交大等多所大專院校開立商業分析（Analytics）課程，期望能培養更多未來的資料科學家，截至目前為止，全球 IBM 在商業分析領域已投入超過 250 億美元。

（首圖來源：Flickr/Daiji Hirata CC BY 2.0）