Spark從入門到精通一 Spark架構

spark與mapreduce的區別

都是分布式計算框架，spark基於記憶體，mr基於hdfs。spark處理資料的能力一般是mr的十倍以上，spark中除了基於記憶體計算外，還有dag有向無環圖來切分任務的執行先後順序。

spark主要分為三大部分

sparkcore：對非結構化資料的處理，rdd

sparksql:對結構化的資料的處理，dataset，dataframe

sparkstreaming:微批計算

spark的一些名詞介紹

寬窄依賴

rdd之間有一系列的依賴關係，依賴關係又分為窄依賴和寬依賴。

窄依賴：父rdd和子rdd partition之間的關係是一對一的。或者父rdd乙個partition只對應乙個子rdd的partition情況下的父rdd和子rdd partition關係是多對一的。不會有shuffle的產生。

寬依賴：父rdd與子rdd partition之間的關係是一對多。會有shuffle的產生。

stage

spark任務會根據rdd之間的依賴關係，形成乙個dag有向無環圖，dag會提交給dagscheduler，dagscheduler會把dag劃分相互依賴的多個stage，劃分stage的依據就是rdd之間的寬窄依賴。遇到寬依賴就劃分stage,每個stage包含乙個或多個task任務。然後將這些task以taskset的形式提交給taskscheduler執行。stage是由一組並行的task組成。

stage切割規則：從後往前，遇到寬依賴就切割stage。

spark資源排程和任務排程（可以參考任務提交流程圖）

粗粒度資源申請(spark）

缺點：直到最後乙個task執行完成才會釋放資源，集群的資源無法充分利用。

細粒度資源申請（mapreduce）

優點：集群的資源可以充分利用。

Spark從入門到精通一 Spark架構

Spark從入門到精通

Zabbix從入門到精通（一）

SVM從入門到精通一

Spark從入門到精通 一 Spark架構

Spark從入門到精通

Zabbix從入門到精通（一）

SVM從入門到精通 一

相關推薦

Spark從入門到精通一 Spark架構

SVM從入門到精通一