弄啥嘞？Spark將納入機器學習與GPU

文章講的是弄啥嘞,spark將納入機器學習與gpu，

現在所有人的注意力都集中在人工智慧上，似乎vr的火熱帶動了人工智慧的發展。最近對全球大學人工智慧教育的排名中，中國暫無高校上榜。相比於國際上各大高校實驗室的火熱，國內高校的動作似乎有些偏慢了。就好比加州大學伯克利分校amp實驗室所開源的hadoop mapreduce通用並行框架spark，在開源社群的貢獻下，勢頭只增不減。近日，據外媒報道，spark將納入機器學習和gpu機制。

機器學習大家都不陌生了，gpu加速其實一直是機器學習的得力輔助，cuda就是我們眾所周知的gpu加速套件。databricks是乙個基於apache spark的商業性雲服務平台。spark是乙個開源集群計算框架，包括機器學習庫、集群管理器、類jupyter的互動筆記本、儀表板和作業預定。有了databricks(作服務)後，spark發展顯著加快且spark集群不斷向外擴充套件。databricks通過簡化對gpu加速型機器學習庫的訪問支援spark服務。gpu加速器和多個深度機器學習庫整合，理論上可以在本地任何位置實現apache spark安裝。但databricks方面表示，為了避免資源爭用情況給功能的實際使用帶來複雜性影響，其版本目前仍處於調整階段。

apache spark不是自動提供並配置gpu加速器的，它是通過建立系統來支援的，早前使用者必須自己搭建。為此，databricks主動承擔起這些複雜的前期工作。

databricks方面表示，將通過減少節點之間的資源爭用數量，最大化spark上gpu集群的效能優勢。這一策略似乎與麻省理工學院的milk看起來類似，milk是通過加速並行處理應用程式，與記憶體相關的操作一律使用批處理，以保證充分利用系統的快取資源。同樣的，databricks試圖保證gpu的各項操作不會因為彼此的資源爭用而中斷。另乙個比較節省時間的方法是新增直接訪問機器學習庫，這樣就可以把spark作為資料來源。這其中就包括databrick的tensorframes，目前spark已經與tensorframes打通，同時實現了gpu加速。

出於對spark的考慮，databricks調整了眾多基礎設施，創造了乙個免費的服務吸引那些仍然持謹慎態度的使用者，包括提供成熟產品中的部分功能。infoworld的martin heller今年早些時候就曾對該服務做出評價，除了免費之外，他認為該服務很容易使用，門檻不高。

但該領域的競爭還是十分激烈的，尤其是要面對一些巨頭玩家的壓力，比如擁有azure機器學習的微軟，ibm以及amazon。如果比燒錢，比免費，小公司難以與大公司競爭；比技術，小公司也不見得擁有多優秀的技術人才。因此，databricks必須找到方法去保持和擴大服務受眾，專注打磨自己的產品，尤其是要突出產品特色，避免產品同質化。這似乎不僅僅是增加幾個機器學習庫那麼簡單了，而是在此基礎上確保使用的便利性，而不是增加其使用複雜度。

弄啥嘞？Spark將納入機器學習與GPU

相關推薦