本文**研究以spark 2.3.0對應的 spark 版本。
圖1 伯克利的資料分析軟體棧bdas(berkeley data analytics stack)
這裡要先說bdas(伯克利資料分析棧),是伯克利大學的amplab打造的用於大資料的分析的一套開源軟體棧,這其中包括了這兩年火的爆棚的spark(spark core、spark sql、spark streaming、mllib和graphx等元件,這些元件分別處理spark core提供記憶體計算框架、sparkstreaming的實時處理應用、spark sql的即時查詢、mllib或mlbase的機器學習和graphx的圖處理
),也包括了冉冉公升起的分布式記憶體系統alluxio(tachyon),當然還包括著名的資源管理的開源軟體mesos。可以說amplab最近幾年引領了大資料發展的技術創新的浪潮。從它的官網
1、**篇
2、準備篇
3、核心篇
圖2 乙個 spark 作業執行圖
1)spark 的初始化
2)spark 記憶體模型
3)spark 儲存體系
4)spark 計算體系
5)spark 執行模式
4、元件篇
1)spark sql
2)spark streaming
3)spark mlib
4)spark graphx
5、公共篇
1)tags
Spark原始碼分析 Spark整體架構
術語 描述使用者編寫的程式。driver端的sparkcontext sparkconf和執行在executors上使用者編寫的業務邏輯 即map reduce reducebykey等 driver 執行使用者編寫應用程式的main 方法並建立sparkcontext worker 具體執行應用程...
Spark 原始碼分析之spark submit
在客戶端執行指令碼sbin spark submit的時候,通過cat命令檢視原始碼可以看出,實際上在原始碼中將會執行bin spark class org.apache.spark.deploy.sparksubmit 在idea匯入的spark core的原始碼進行分析。首先spark會把初始化...
Spark 原始碼分析之SparkContext
saprkcontext非常重要,是spark提交任務到集群的入口 sparkcontext中沒有main方法,在sparkcontext主構造器中,主要做一下四件事情 1.呼叫createsparkenv 建立sparkenv,sparkenv中能夠得到actorsystem物件,用於建立acto...