IBM 資料科學平台三大特性解決資料科學家協作問題

2021-09-17 03:52:20 字數 2524 閱讀 9345

雖然資料科學是乙個比較火爆的話題,也受到越來越多重視,但是企業內部資料科學現狀卻是:不同資料分析人員使用著包括python、r、spark在內的多種開源產品,並且版本不一;不同開源技術的使用導致資料資產分散存在,形如散沙;最嚴重的是,當企業內部多位資料分析人員需要協同工作的時候,缺少乙個整合多語言、多資料資產、適於統一管理的平台。正因為看到以上挑戰,ibm在去年推出ibm data science experience (dsx),解決資料科學家協同工作的問題。近日infoq記者採訪了ibm分析平台部門資深大資料專家吳敏達,請他詳解dsx。

\\支援多種語言 dsx讓協作變得更容易

\\ 資料分析並不是什麼新鮮事物,對於市面上的資料分析產品,其實大家並不陌生。但是因為不同版本、不同開源語言的資料分析工具「群雄割據」,反而使得資料統一管理在企業內部成了一道難題。

\\ 據吳敏達介紹,dsx支援當前幾乎所有主流的演算法方面的開源語言,比如r、python、scala。在dsx平台上,使用者可以自由切換使用不同開源語言,只需要開啟瀏覽器輸入鏈結就可以直接使用,它幫助我們免去了安裝不同開源平台的煩瑣,解決了不同開源平台雜亂無章管理的痛點,這也使得dsx可以協助資料科學家在統一平台上進行協作。而無論是dsx的公有雲版本還是私有雲版本,也採用完全一樣的底層架構,都以瀏覽器方式進行使用。

\\通過dsx使用流程 看協作閉環如何實現

\\ 如果說dsx的最大優勢是什麼,吳敏達認為是專案協作概念的引入。專案的資源包括演算法模型資產、資料資產、人員、書籤,並能夠實現任何資產的共享,為團隊和個人提供了乙個協作的專案空間,大大提高了工作效率。

\\ 當然這其中就會涉及到dsx在使用者中的使用流程了,因為從流程我們能夠看到協作如何產生、閉環如何實現。首先是連線資料來源;接下來是資料準備和預處理、自動建模、引數優化;然後就是進行模型的發布,其中包括實時,流式傳輸和批量部署;第四步是模型的應用,比如手持應用、移動應用、**應用等等;第五步是對模型的管理、持續監控和反饋,可以實現模型的自動學習和自動再訓練。可以說 dsx 真正提供了乙個端到端的資料科學解決方案。

\\決策優化、機器學習 dsx這些功能不容忽視

\\ 除對開源演算法的支援外,dsx 還配備了決策優化引擎,將機器學習與**結合在一起,就可以實現從料事如神到運籌帷幄。對此吳敏達列舉了某航空公司的例子,通過 dsx 對發動機關鍵資料和天氣、機場等公共資料的收集、儲存和利用機器學習的分析,航空公司提前**發動機故障的可能性。在同一平台 dsx 把前面的**作為決策優化模型的資料輸入,考慮客戶服務,成本、維護工程師的可用性和技能,就能為航空公司維護部門提供最優維護計畫。

\\ 而提到dsx就不得不提spss,很多傳統金融、電信、製造的客戶都對spss並不陌生並且一直在使用,dsx未來將支援spss模型在dsx中執行,通過瀏覽器供使用者使用拖拽的方式進行機器學習建模。

\\ 對於dsx,ibm將其定義為資料科學家日常工作的統一入口。dsx除具備管理、協作職能之外,dsx即將支援的machine learning元件,使更多並不理解底層演算法選擇、引數優化的資料科學家把精力投向到資料的應用上來,用dsx完成資料分析的整個閉環。

\\基於 spark 技術 全面擁抱開源

\\ 這裡值得一提的是dsx對spark集群技術的運用。據吳敏達介紹, dsx採用docker技術布置集群,控制節點實現高可用性,儲存節點實現本地資料儲存,計算節點實現計算任務。spark作為大資料領域當前最熱的關鍵技術,是專為大規模資料處理而設計的快速通用的計算引擎,ibm對此投入巨大精力,在spark 2.x 機器學習領域,ibm 是貢獻度第一的廠商,由 ibm 開源的 apache systemml 是 spark 環境下最知名的分布式機器學習專案。

\\結束語

\\ 在企業內部,能夠擁有較多數量資料科學家也就意味著企業對資料分析、**擁有較高需求,而這些需求與業務必然是強關聯的,對業務不友好的資料分析管理工具必然不會被廣泛使用,而定位於團隊協作、致力於成為資料科學家使用入口的dsx,不僅對開源友好,還擁有決策優化引擎和機器學習平台,要把資料科學家從複雜的資料分析、**中解放出來讓他們真正關心業務,這才是資料科學必然趨勢所在。

吳敏達,ibm分析平台部門資深大資料專家。有近 20 年資訊管理和分析軟體相關技術經驗,專長是大資料、機器學習和資料分析和視覺化等相關領域。他是 ibm developerworks 的大師級作者,已經發表了 20 餘篇技術文章和教程。現從事大資料、機器學習相關技術支援和架構設計工作。

IBM 資料科學平台三大特性解決資料科學家協作問題

雖然資料科學是乙個比較火爆的話題,也受到越來越多重視,但是企業內部資料科學現狀卻是 不同資料分析人員使用著包括python r spark在內的多種開源產品,並且版本不一 不同開源技術的使用導致資料資產分散存在,形如散沙 最嚴重的是,當企業內部多位資料分析人員需要協同工作的時候,缺少乙個整合多語言 ...

mysql三大特性 資料庫四大特性

資料庫系統必須維護事務的以下特性 簡稱acid 原子性 atomicity 一致性 consistency 隔離性 isolation 永續性 durability 原子性 atomicity 原子性是指事務包含的所有操作要麼全部成功,要麼全部失敗回滾,因此事務的操作如果成功就必須要完全應用到資料庫...

Python用於資料科學三大頂級模組

numpy numpy numerical python的縮寫 是配備有用資源的頂級庫之一,可幫助資料科學家將python轉變為強大的科學分析和建模工具。流行的開源庫可以在bsd許可下使用。它是用於在科學計算中執行任務的基礎python庫。numpy是乙個更大的基於python的開源工具生態系統的一...