spark 的倆種 任務提交方式

2021-09-24 21:06:10 字數 1969 閱讀 2719

spark提交方式

standalone client測試環境:

hadoop

./spark-submit

--master spark://node1:7077

--class 類路徑  

../執行檔案的路勁  

執行任務數

master節點:

掌握worker節點的資源資訊

worker節點:

driver(sparksubmit)客戶端:

同時啟動任務,會造成流量的網絡卡激增。

使用測試環境

可以看到執行的任務,日記,結果

shell提交任務,看到執行的任務提交,操作日誌,結果

看不到driver,客戶端充當了driver

集群提交:cluster

./spark-submit

--master spark://node1:7077

--deploy-mode client

--class 類路徑  

../執行檔案的路勁  

執行任務數

master

隨機選一台機器,啟動driver。

返回一批符合的資源需求的worker節點

worker(driver)

客戶端向master,申請啟動driver。

客戶端向master申請啟動driver

master隨機選擇worker的一台機器啟動driver.

master返回給worker節點,一批符合資源

worker上的driver傳送任務,並且啟動exexutor執行task任務。

**結果。

適用於正式環境,不會造成網絡卡流量激增。

running drivers:

shell提交任務,看不到執行的任務提交,操作日誌,結果

區別:客戶端提交和集權提交的區別: 1.客戶端向master申請啟動driver

2.master隨機選擇一台機器啟動driver.

yarn提交方式

啟動的資源zookeeper,hadoop

客戶端提交:

./spark-submit

--master yarn

--class 類路勁 

../檔案路徑

任務數客戶端(driver)

resourcemanager

nodemanager

使用測試環境,

shell執行,可以看到執行任務,結果

步驟:rm隨機在集群上啟動一台nm(am)

nm(am啟動後),向rm申請包含nm節點資源的container,

rm返回nm資源資訊

nm(am(driver))啟動executor,

excecutor啟動以後,會反向註冊給driver,driver傳送任務task給execuotr,執**況和返回結果給driver。

集群提交:

./spark-submit

--master yarn

--deploy-mode cluster

--class  類路徑

../檔案路徑

執行任務數

客戶端申請啟動driver()。

rm隨機選nm上的一台機器啟動driver。返回nm包含container資源的節點

nm(am,driver)

使用於生產環境,在客戶端看不到任務的執**況,不會造成流量激增。

步驟:rm隨機啟動乙個nm結點,啟動am

nm(am啟動後,(相當於driver端)),向rm請求container包含nm資源的資訊,

rm接到請求,返回一批nm資源

nm(am啟動executor,executor啟動後會反向註冊給driver)

driver傳送task任務,到executor執行

yarn客戶端提交和集群提交區別:

客戶端的driver在客戶端,結果也返回給客戶端。

Spark 三種作業提交方式

本地方式是在本地 jvm 中啟動乙個程序來模擬執行環境,多個執行緒進行作業執行,主要用於開發測試。standalone,yarn,兩種方式的區別在於 clustermanager 的不同,clustermanager 的作用在於進行各個程序的啟動管理,資源的排程。standalone的 cluste...

spark 2 0 0提交jar任務的幾種方式

對應引數改為適合自己的模式即可 集群模式 限制資源,後台執行 spark submit class test.streamings master spark deploy mode cluster executor memory 500m total executor cores 5 sparkde...

Spark任務提交流程

spark任務提交流程挺複雜的,下面給乙個相對簡單的任務提交流程 driver程序啟動以後,首先構建sparkcontext,sparkcontext主要包含兩部分 dagscheduler和taskscheduler master接受到任務註冊資訊之後,根據自身資源呼叫演算法在spark集群的wo...