spark一千篇旅遊日記0004之作業執行解析。
一. 乙個spark程式細分成計算粒度的過程
1.從任務執行的角度看:
task是spark中最小粒度的計算.
其中每乙個綠色箭頭就表示乙個task
2.從集群的角度看:
細分成單個執行緒:
二. 集群和任務的關係圖表:
比喻一下:
現在要做乙個專案application,有5臺機器(稱為worker node1,2,3,4,5)可以做這個專案,而這個專案有3個子任務(稱為job1,job2,job3),現在我們用這5臺機器同時先完成job1,再同時一起做job2,最後再同時做job3.
這就是集群和任務的關係,就好比x軸和y軸的關係.每台機器都做了三個任務,每個任務都由5臺機器共同完成.
那麼每一台機器具體怎麼做好每個job呢?
這5臺機器每個只開乙個程序(稱為executor)去做這個整個專案.在這每乙個executor裡面,都是從頭到尾的把所有job做完.
每個job任務,都分為好幾個步驟(稱為stage)去做,每個步驟又由幾個互不影響的事情(稱為task)組成.
所以是executor安裝順序執行stage,而執行stage的時候,每個task都可以開乙個執行緒去執行.
旅遊攻略 重慶篇
首先宣告的是,重慶的夜晚是真的漂亮,白天就比較一般啦!所以晚上多轉轉,白天可以好好休息,補充體力。去重慶玩,洪崖洞是必不可少的去處,那裡靠近江邊,可以先去洪崖洞裡面轉轉,購購物啊,裡面的東西還是超級多的,轉完了可以坐輪船,在輪船上面欣賞嘉陵江與長江的夜景,以及洪崖洞的全景。輪船的選型也有好多種,我是...
Spark學習日記3
spark學習日記3 spark累加器和廣播變數。累加器 通過初始化sparkcontext.accumulator t 來獲取乙個累加器。在各個工作節點對累加器的更新會影響其他節點累加器的值。在foreach操作中進行累加器操作可以避免同一任務因為重啟而重複更新累加器。但是累加器在rdd轉化中無法...
Spark高階篇 共享變數
目錄 共享變數 廣播變數 概述 原理 實現 總結累加器 概述 實現 總結 使用廣播變數,每個executor的記憶體中,只駐留乙份變數副本,而不是對每個task都傳輸一次變數,省去了很多的網路傳輸,對效能的提公升有很大的幫助,而且通過高效的廣播演算法來減少傳輸代價。使用廣播變數的場景很多,spark...