好久沒有看
spark
了,發現
spark
都開始發力
ai了。簡單梳理下
spark
的發展脈絡如下: 1
)spark 0.x
主要對標
mapreduce
,用記憶體計算的能力替換
mapreduce
依賴磁碟,最主要的概念就是
rdd。 2)
最主要解決是易用性問題,用
sparksql
統一了程式語言。替代了
hive sql
等,另外提供了一系列高階介面,極大的降低了程式設計難易度。並推出
tungsten
專案,通過編譯優化的方法提高效能。 3)
spark 2.0
主要對標
flink
,統一了批處理和流處理介面,批處理和流處理融合處理,推出結構化流處理介面
struct streaming。 4
)spark 2.4
開始提供影象分類的能力,見部落格:
故事還在繼續,可以看到
spark
社群一直在技術的前沿陣地,從不是探路者,但是總是能抓住關鍵問題,以一種更優雅的方式去替換和取代。
spark梳理筆記
梳理一下spark中關於併發度涉及的幾個概念file,block,split,task,partition,rdd以及節點數 executor數 core數目的關係。輸入可能以多個檔案的形式儲存在hdfs上,每個file都包含了很多塊,稱為block。當spark讀取這些檔案作為輸入時,會根據具體資...
Spark基礎概念梳理
因為最近在學習與使用spark,所以對一些基礎概念與術語做一些梳理。用來加深映像同時方便後續複習 spark是乙個基於記憶體的分布式計算框架,可無縫整合於現有的hadoop生態體系。主要包括四大元件 spark streaming spark sql spark mllib和spark graphx...
Spark機器學習過程梳理
最近半個月開始研究spark的機器學習演算法,由於工作原因,其實現在還沒有真正開始機器學習演算法的研究,只是做了前期大量的準備,現在把早年學習的,正在學習的和將要學習的一起做個梳理,整理乙個spark機器學習完整流程。本文推薦的書籍注重通俗和實戰。linux的學習推薦 鳥哥的linux私房菜 基礎篇...