IBM如何擁抱Spark

spark是目前相當火熱的開源計算框架，相對於hadoop，spark優勢是高效能和易用性。spark的高效能源於其採用記憶體儲存資料，應用可以以記憶體的速度進行運算；spark的易用性在於通用的api，使用者可以編寫複雜的平行計算程式，使之看上去就像序列程式。這也使得spark程式更容易開發和讀懂。由於其高效能，spark已成為機器學習的重要工具。日前，ibm宣布加入spark社群，並與spark的核心貢獻公司databricks合作。那麼ibm將如何與社群進行合作，其自身又在spark、大資料及機器學習領域有哪些計畫？infoq受邀與ibm進行交流，並對以上問題進行了解讀。

\\ibm對社群的貢獻和對未來的規劃

\\ ibm大中華區大資料與分析事業部總經理鐘澤敏表示，在美國的舊金山研究室有乙個spark的技術中心，有超過200位的技術人員在spark技術中心裡工作。技術中心主要的功能是把spark的技術應用在一些企業級應用場景中，這解決了開源的另乙個問題。databricks ceo ion stoica表示，考慮到ibm在spark研發方面的投入，非常期待ibm成為spark的核心貢獻者。

\\ ibm大中華區大資料與分析事業部資料平台方案總經理劉勝利認為，ibm在全球的研發分為兩大類，第一類叫reserch，第二類是develop，這兩類的工作性質還是非常不同的。reserch就是研究，他們專注研究先進的、超前的技術的前期的研發。而systemml是ibm研發了超過十年的機器學習技術。沃森（watson）在幾年前的大型活動裡，整合了很多systemml機器學習的功能。

\\ 他表示，ibm與databricks合作，是希望把systemml的功能輸送給spark，讓spark具有更強大的機器學習能力，讓資料科學家專注於演算法，而不是一些簡單的、細節的技術本身。

\\ databricks計畫開發乙個機器學習框架mlbase，這與ibm的systemml是什麼關係，雙方的合作如何互補呢？ibm大中華區軟體架構師總監、ibm技術科學院委員林旭光認為，systemml其實並不是提供演算法，它其實是提供乙個定義的機制，可以讓data center定義自己的演算法。劉勝利表示，spss提供了很多和ml lab相似的演算法，並且比後者演算法更多。「我們看到ml lab的演算法有侷限性。」舉個例子，乙個專賣店會收集一些他的客戶辦的卡，這個卡會記錄客戶到他那買過什麼樣的東西。那麼下一步專賣店對客戶進行**，首先要對客戶進行分群，但是演算法本身並不能解決分群的問題。還有很多行業的知識，比如對使用者畫像和智慧型推薦等。ibm可能在這方面有更強的東西，演算法本身是標準化的。比如說你要分群客戶是用二叉樹演算法、神經元網路演算法還是哪個演算法，這在實際操作中是有一些經驗可循的。

\\ 那麼ibm會以什麼樣的方式與節奏節奏，拿出多少」乾貨」與社群共享自己在機器學習等方面的技術呢？ibm大中華區大資料分析平台銷售總監洪建勳表示，「我們做了一件很關鍵的事情，如何把從企業級市場得到的客戶需求跟最新的技術有效的銜接起來？這點是ibm一直致力於在做的很重要的事情。同時，新技術很多，可能出現孤島，我們能夠讓新的技術為企業真正融合，把這些所謂的單點和孤島全部連線起來打通，把原來可能存在的問題盡可能地減少。」

\\ 毫無疑問，ibm對企業應用的理解是眾多網際網路公司無法比擬的，這種經驗和理解是否能成為指導社群發展的力量呢？洪建勳認為，以hadoop發展那麼多年的經驗看，hadoop社群儘管規模很大，但是新的元件一直在湧現。重點技術一直有變化，而ibm這種企業級it廠商有很多新的經驗。「這也是成立odp的價值，你可以在odp中看到很多老的it公司，為開放平台貢獻自己的思想，為企業級客戶服務。」

\\ibm培養spark技術人才

\\ 鐘澤敏透露，ibm已經開辦免費的課程，預計在第三季度就會更新第二批免費的課程。與databricks、amplab合作培養資料科學家。

\\ 此外，ibm去年宣布投資1億美金，在中國推動」u100」計畫，後來又推出了」a100「（百企大資料）計畫，跟國內商學院一起培養學生。該專案由香港中文大學、對外經貿大學、西南交大聯合發起，集合約50所商學院，ibm到學校裡實地去幫老師和學生做資料探勘、資料清洗。其中用到的工具、解決方案都由ibm提供。這個價值對於商學院，從老師到教育體系的改革，再到人才培養，都非常重要。事實上已有很多專案已經出了成果，這些研究專案都是非常有實際意義的。目前，ibm在大資料的投入已經超過250億美元。

\\為什麼是open data platform？

\\ open data platform是眾多it巨頭企業聯合成立的開放資料平台。劉勝利表示，對於大部分企業使用者，開源了並不是意味著大家可以直接用。「我們希望大家在使用hadoop的時候不再侷限於有限的廠商」，所以在開源之上又推出了開放資料平台。希望在選擇開放資料平台裡這些核心部件的時候，大家選用公共的、統一的這些**。那麼，使用這樣乙個開放的資料平台，就不再受限於某一家的開源**，既利用了開源的好處，同時又讓企業使用者不再被廠家束縛。

\\ 鐘澤敏表示，ibm還是注重在企業級應用。包括sql、r語言以及資料分析都是ibm的優勢。劉勝利認為，ibm做分析挖掘的語言以及sql關係型資料庫已有30多年的歷史，有大量的優化技術。另外，spss的許多**分析產品的演算法也可以和spark結合，因為spss使spark上可以處理的資料量、處理的速度、處理的能力都得到了極大的提公升。特別是spss最大的研發實驗室在中國，有一大堆數學科學家在研究演算法。

\\ 林旭光補充道，有些客戶反饋說，用了一些廠家的開源元件之後，沒辦法遷移到別的平台上去，雖然產品也是開源的。這是因為這些開源產品只有幾家公司或很小的群體在支援。基於此，做open data platform乙個很重要的目標就是，ibm用的只是開源的元件，並且都是可遷移的。

\\ 未來ibm會陸續推出spark系列產品，包括watson analytics、dataworks、puerdata一體機，以及一些方案和正在孵化的專案。

\\ 感謝魏星對本文的審校。

IBM如何擁抱Spark

IBM承諾將推動Spark的發展

微軟擁抱開源如何擁抱開源勞動力

蘋果擁抱IBM背後大資料推動手機行業洗牌

IBM如何擁抱Spark

IBM承諾將推動Spark的發展

微軟擁抱開源 如何擁抱開源勞動力

蘋果擁抱IBM背後 大資料推動手機行業洗牌

相關推薦

微軟擁抱開源如何擁抱開源勞動力

蘋果擁抱IBM背後大資料推動手機行業洗牌