Spark將機器學習與GPU加速機制納入自身

2021-09-23 06:39:53 字數 1129 閱讀 3084

【51cto.com快譯】

databricks公司通過簡化對gpu加速型機器學習方案的訪問支援自家雲spark服務。

作為apache spark記憶體內大資料專案的支援與開發合作廠商,databricks公司已經對其自家apache spark雲實現方案進行兩輪支援公升級,旨在讓更多it使用者享受其便利。

此次推出的新功能——即gpu加速與多套深度學習庫整合——在理論上能夠實現apache spark在任意位置的安裝工作。不過databricks方面表示,其版本目前仍處於調整階段,這是為了避免資源爭用情況給功能的實際使用帶來複雜性影響。

apache spark本身並不具備開箱即用的gpu加速功能,且需要設定一套系統對此加以支援,這意味著使用者需要面對多種複雜元件。有鑑於此,databrick公司決定承擔起相關難題。

databricks方面還宣稱,其將降低節點間的資源爭用數量,從而最大程度保證spark的運作能夠充分發揮gpu集群的效能優勢。這一思路與麻省理工學院的milk庫看起來非常類似,後者同樣利用加速機制併發處理應用,旨在確保與記憶體相關的操作以批量方式進行,最終實現對系統快取資源的最大化利用。databricks公司的設定能夠保證各項gpu操作之間不會相互導致衝突乃至中斷。

另一項能夠顯著節約時間的舉措在於直接訪問多種主流機器學習庫,這意味著spark將可作為資料來源起效。其中包括databricks自家的tensorframes庫,其允許將tensorflow庫與spark相配合,同時實現gpu加速能力。

databricks 公司已經在推文中表示,其基礎設施能夠充分利用spark的自身優勢。其建立起免費級服務,用以吸引那些仍對深度使用spark抱有警惕心理的客戶,包括為其提供完整產品中的部分功能。根據infoworld**此前發布的評測報告,databricks的免費產品確實相當出色且易於上手。

不過市場競爭仍然相當激烈,特別是考慮到databricks需要面對像微軟(擁有azure機器學習方案)、ibm以及amazon這樣的巨頭級對手。因此,其必須找到保持並擴大服務受眾規模的可行途徑,並專注於打造自身獨特的服務產品。除了新增機器學習與gpu加速等功能之外,databricks還需要在發展計畫中確保新特性能夠切實帶來便利——而非提公升複雜程度。

Spark將機器學習與GPU加速機制納入自身

databricks公司通過簡化對gpu加速型機器學習方案的訪問支援自家雲spark服務。作為apache spark記憶體內大資料專案的支援與開發合作廠商,databricks公司已經對其自家apache spark雲實現方案進行兩輪支援公升級,旨在讓更多it使用者享受其便利。此次推出的新功能 即...

弄啥嘞?Spark將納入機器學習與GPU

文章講的是弄啥嘞,spark將納入機器學習與gpu,現在所有人的注意力都集中在人工智慧上,似乎vr的火熱帶動了人工智慧的發展。最近對全球大學人工智慧教育的排名中,中國暫無高校上榜。相比於國際上各大高校實驗室的火熱,國內高校的動作似乎有些偏慢了。就好比加州大學伯克利分校amp實驗室所開源的hadoop...

Spark機器學習

spark機器學習 注 spark簡介 spark是乙個分布式計算框架,旨在簡化執行於計算集群上的並行程式的編寫。該框架對資源排程,任務的提交 執行和跟蹤,節點間的通訊以及資料並行處理的內在底層操作都進行了抽象。它提供了乙個更高階別的api用於處理分布式資料。spark支援的四種執行模式 本地單機模...