弄啥嘞?Spark將納入機器學習與GPU

2021-09-23 02:07:56 字數 1388 閱讀 5979

文章講的是弄啥嘞,spark將納入機器學習與gpu

現在所有人的注意力都集中在人工智慧上,似乎vr的火熱帶動了人工智慧的發展。最近對全球大學人工智慧教育的排名中,中國暫無高校上榜。相比於國際上各大高校實驗室的火熱,國內高校的動作似乎有些偏慢了。就好比加州大學伯克利分校amp實驗室所開源的hadoop mapreduce通用並行框架spark,在開源社群的貢獻下,勢頭只增不減。近日,據外媒報道,spark將納入機器學習和gpu機制。

機器學習大家都不陌生了,gpu加速其實一直是機器學習的得力輔助,cuda就是我們眾所周知的gpu加速套件。databricks是乙個基於apache spark的商業性雲服務平台。spark是乙個開源集群計算框架,包括機器學習庫、集群管理器、類jupyter的互動筆記本、儀表板和作業預定。有了databricks(作服務)後,spark發展顯著加快且spark集群不斷向外擴充套件。databricks通過簡化對gpu加速型機器學習庫的訪問支援spark服務。gpu加速器和多個深度機器學習庫整合,理論上可以在本地任何位置實現apache spark安裝。但databricks方面表示,為了避免資源爭用情況給功能的實際使用帶來複雜性影響,其版本目前仍處於調整階段。

apache spark不是自動提供並配置gpu加速器的,它是通過建立系統來支援的,早前使用者必須自己搭建。為此,databricks主動承擔起這些複雜的前期工作。

databricks方面表示,將通過減少節點之間的資源爭用數量,最大化spark上gpu集群的效能優勢。這一策略似乎與麻省理工學院的milk看起來類似,milk是通過加速並行處理應用程式,與記憶體相關的操作一律使用批處理,以保證充分利用系統的快取資源。同樣的,databricks試圖保證gpu的各項操作不會因為彼此的資源爭用而中斷。另乙個比較節省時間的方法是新增直接訪問機器學習庫,這樣就可以把spark作為資料來源。這其中就包括databrick的tensorframes,目前spark已經與tensorframes打通,同時實現了gpu加速。

出於對spark的考慮,databricks調整了眾多基礎設施,創造了乙個免費的服務吸引那些仍然持謹慎態度的使用者,包括提供成熟產品中的部分功能。infoworld的martin heller今年早些時候就曾對該服務做出評價,除了免費之外,他認為該服務很容易使用,門檻不高。

但該領域的競爭還是十分激烈的,尤其是要面對一些巨頭玩家的壓力,比如擁有azure機器學習的微軟,ibm以及amazon。如果比燒錢,比免費,小公司難以與大公司競爭;比技術,小公司也不見得擁有多優秀的技術人才。因此,databricks必須找到方法去保持和擴大服務受眾,專注打磨自己的產品,尤其是要突出產品特色,避免產品同質化。這似乎不僅僅是增加幾個機器學習庫那麼簡單了,而是在此基礎上確保使用的便利性,而不是增加其使用複雜度。