spark核心揭秘 02 spark集群概覽

2021-08-27 19:59:23 字數 516 閱讀 6535

spark集群預覽:

官方文件對spark集群的初步描述如下,這是乙個典型的主從結構:

官方文件對spark集群中的一些關鍵點給出詳細的指導:

其worker的定義如下所示:

需要注意的是spark driver所在的集群需要和spark集群最好位於同乙個網路環境中,因為driver中的sparkcontext例項需傳送任務給不同worker node的executor並接受executor的一些執行結果資訊,一般而言,在企業實際的生產環境中driver所在的機器是的配置往往都是比較不錯的,尤其是其cpu的處理能力要很強悍。

02 spark基本工作原理與RDD

分布式主要基於記憶體 迭代式計算 rdd在抽象上來說是一種元素集合,包含了資料。它是被分割槽的,分為多個分割槽,每個分割槽分布在集群中的不同節點上,從而讓rdd中的資料可以被並行操作。分布式資料集 rdd最重要的特性就是,提供了容錯性,可以自動從節點失敗中恢復過來。即如果某個節點上的rdd part...

spark核心架構

driver部分的 sparkconf sparkcontext driver 部分 val conf new sparkconf val sc new sparkcontext conf end executor部分 分布到集群中的 比如 textfile flatman map worker 管...

Spark核心原理

寬依賴 有shuffle 父rdd的乙個分割槽會被子rdd的多個分割槽所依賴 窄依賴 沒有shuffle 父rdd的乙個分割槽只會被子rdd的1個分割槽所依賴 總結 窄依賴 並行化 容錯 寬依賴 進行階段劃分 shuffle後的階段需要等待shuffle前的階段計算完才能執行 spark的dag 就...