IBM如何擁抱Spark

2021-09-17 05:37:07 字數 2803 閱讀 8366

spark是目前相當火熱的開源計算框架,相對於hadoop,spark優勢是高效能和易用性。spark的高效能源於其採用記憶體儲存資料,應用可以以記憶體的速度進行運算;spark的易用性在於通用的api,使用者可以編寫複雜的平行計算程式,使之看上去就像序列程式。這也使得spark程式更容易開發和讀懂。由於其高效能,spark已成為機器學習的重要工具。日前,ibm宣布加入spark社群,並與spark的核心貢獻公司databricks合作。那麼ibm將如何與社群進行合作,其自身又在spark、大資料及機器學習領域有哪些計畫?infoq受邀與ibm進行交流,並對以上問題進行了解讀。

\\ibm對社群的貢獻和對未來的規劃

\\ ibm大中華區大資料與分析事業部總經理鐘澤敏表示,在美國的舊金山研究室有乙個spark的技術中心,有超過200位的技術人員在spark技術中心裡工作。技術中心主要的功能是把spark的技術應用在一些企業級應用場景中,這解決了開源的另乙個問題。databricks ceo ion stoica表示,考慮到ibm在spark研發方面的投入,非常期待ibm成為spark的核心貢獻者。

\\ ibm大中華區大資料與分析事業部資料平台方案總經理劉勝利認為,ibm在全球的研發分為兩大類,第一類叫reserch,第二類是develop,這兩類的工作性質還是非常不同的。reserch就是研究,他們專注研究先進的、超前的技術的前期的研發。而systemml是ibm研發了超過十年的機器學習技術。沃森(watson)在幾年前的大型活動裡,整合了很多systemml機器學習的功能。

\\ 他表示,ibm與databricks合作,是希望把systemml的功能輸送給spark,讓spark具有更強大的機器學習能力,讓資料科學家專注於演算法,而不是一些簡單的、細節的技術本身。

\\ databricks計畫開發乙個機器學習框架mlbase,這與ibm的systemml是什麼關係,雙方的合作如何互補呢?ibm大中華區軟體架構師總監、ibm技術科學院委員林旭光認為,systemml其實並不是提供演算法,它其實是提供乙個定義的機制,可以讓data center定義自己的演算法。劉勝利表示,spss提供了很多和ml lab相似的演算法,並且比後者演算法更多。「我們看到ml lab的演算法有侷限性。」舉個例子,乙個專賣店會收集一些他的客戶辦的卡,這個卡會記錄客戶到他那買過什麼樣的東西。那麼下一步專賣店對客戶進行**,首先要對客戶進行分群,但是演算法本身並不能解決分群的問題。還有很多行業的知識,比如對使用者畫像和智慧型推薦等。ibm可能在這方面有更強的東西,演算法本身是標準化的。比如說你要分群客戶是用二叉樹演算法、神經元網路演算法還是哪個演算法,這在實際操作中是有一些經驗可循的。

\\ 那麼ibm會以什麼樣的方式與節奏節奏,拿出多少」乾貨」與社群共享自己在機器學習等方面的技術呢?ibm大中華區大資料分析平台銷售總監洪建勳表示,「我們做了一件很關鍵的事情,如何把從企業級市場得到的客戶需求跟最新的技術有效的銜接起來?這點是ibm一直致力於在做的很重要的事情。同時,新技術很多,可能出現孤島,我們能夠讓新的技術為企業真正融合,把這些所謂的單點和孤島全部連線起來打通,把原來可能存在的問題盡可能地減少。」

\\ 毫無疑問,ibm對企業應用的理解是眾多網際網路公司無法比擬的,這種經驗和理解是否能成為指導社群發展的力量呢?洪建勳認為,以hadoop發展那麼多年的經驗看,hadoop社群儘管規模很大,但是新的元件一直在湧現。重點技術一直有變化,而ibm這種企業級it廠商有很多新的經驗。「這也是成立odp的價值,你可以在odp中看到很多老的it公司,為開放平台貢獻自己的思想,為企業級客戶服務。」

\\ibm培養spark技術人才

\\ 鐘澤敏透露,ibm已經開辦免費的課程,預計在第三季度就會更新第二批免費的課程。與databricks、amplab合作培養資料科學家。

\\ 此外,ibm去年宣布投資1億美金,在中國推動」u100」計畫,後來又推出了」a100「(百企大資料)計畫,跟國內商學院一起培養學生。該專案由香港中文大學、對外經貿大學、西南交大聯合發起,集合約50所商學院,ibm到學校裡實地去幫老師和學生做資料探勘、資料清洗。其中用到的工具、解決方案都由ibm提供。這個價值對於商學院,從老師到教育體系的改革,再到人才培養,都非常重要。事實上已有很多專案已經出了成果,這些研究專案都是非常有實際意義的。目前,ibm在大資料的投入已經超過250億美元。

\\為什麼是open data platform?

\\ open data platform是眾多it巨頭企業聯合成立的開放資料平台。劉勝利表示,對於大部分企業使用者,開源了並不是意味著大家可以直接用。「我們希望大家在使用hadoop的時候不再侷限於有限的廠商」,所以在開源之上又推出了開放資料平台。希望在選擇開放資料平台裡這些核心部件的時候,大家選用公共的、統一的這些**。那麼,使用這樣乙個開放的資料平台,就不再受限於某一家的開源**,既利用了開源的好處,同時又讓企業使用者不再被廠家束縛。

\\ 鐘澤敏表示,ibm還是注重在企業級應用。包括sql、r語言以及資料分析都是ibm的優勢。劉勝利認為,ibm做分析挖掘的語言以及sql關係型資料庫已有30多年的歷史,有大量的優化技術。另外,spss的許多**分析產品的演算法也可以和spark結合,因為spss使spark上可以處理的資料量、處理的速度、處理的能力都得到了極大的提公升。特別是spss最大的研發實驗室在中國,有一大堆數學科學家在研究演算法。

\\ 林旭光補充道,有些客戶反饋說,用了一些廠家的開源元件之後,沒辦法遷移到別的平台上去,雖然產品也是開源的。這是因為這些開源產品只有幾家公司或很小的群體在支援。基於此,做open data platform乙個很重要的目標就是,ibm用的只是開源的元件,並且都是可遷移的。

\\ 未來ibm會陸續推出spark系列產品,包括watson analytics、dataworks、puerdata一體機,以及一些方案和正在孵化的專案。

\\ 感謝魏星對本文的審校。

\\

IBM承諾將推動Spark的發展

上個月早些時候在拉斯維加斯舉行的ibm insight 2015大資料分析峰會上,ibm公司宣布將主要承擔apache spark專案。正如ibm公司之前所說的 這可能將會是下個十年中最重要的開源專案 充分展現了ibm公司對於apache spark的重要性充滿信心。idc的報道指出,未來80 的雲...

微軟擁抱開源 如何擁抱開源勞動力

微軟擁抱開源 企業在使用開源軟體的過程中吸取了重要的教訓 他們可以從自己的員工名單中受益。現在,企業開始認識到開源課程不僅適用於軟體開發,而且還在尋找新的方法來尋找人才。正如德勤最近出版的 開放式人才經濟 所記錄的那樣,這一趨勢正在改變著我們所知的工作場所。這一運動的基礎是認識到社群和公司在推動球運...

蘋果擁抱IBM背後 大資料推動手機行業洗牌

7月16日,蘋果和ibm宣布,兩家公司達成排他性合作,把ibm的大資料和分析能力帶給iphone和ipad平板電腦。業內分析人士認為,這次戰略結盟,標誌著大資料對全球網際網路硬體裝置的改造正式啟動,也宣布了手機行業的又一次洗牌 比如,打算在企業移動市場有所作為的老牌巨頭黑莓,就被判了死刑。大資料將重...