spark 檢視yarn日誌 spark提交任務

2021-10-13 23:28:01 字數 3175 閱讀 2476

standalone模式兩種提交任務方式

standalone-client提交任務方式

提交命令

./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000
或者

./spark-submit --master spark://node1:7077 --deploy-mode client --class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100
執行原理**

執行流程

client模式提交任務後,會在客戶端啟動driver程序。

資源申請成功,driver端將task傳送到worker端執行。

worker將task執行結果返回到driver端。

總結standalone-cluster提交任務方式

提交命令

./spark-submit --master spark://node1:7077 --deploy-mode cluster--class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100
執行原理**

執行流程

cluster模式提交應用程式後,會向master請求啟動driver.

master接受請求,隨機在集群一台節點啟動driver程序。

driver啟動後為當前的應用程式申請資源。

driver端傳送task到worker節點上執行。

worker將執**況和執行結果返回給driver端。

總結1. driver負責應用程式資源的申請

2. 任務的分發。

3. 結果的**。

4. 監控task執**況。

yarn模式兩種提交任務方式

yarn-client提交任務方式

提交命令

./spark-submit --master yarn --class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar100
或者

./spark-submit --master yarn–client --class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar100
或者

./spark-submit --master yarn --deploy-mode client  --class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar100
執行原理**

執行流程

rs收到請求,隨機選擇一台nm(nodemanager)啟動am。這裡的nm相當於standalone中的worker節點。

am啟動後,會向rs請求一批container資源,用於啟動executor.

rs會找到一批nm返回給am,用於啟動executor。

am會向nm傳送命令啟動executor。

executor啟動後,會反向註冊給driver,driver傳送task到executor,執**況和結果返回給driver端。

總結yarn-client模式同樣是適用於測試,因為driver執行在本地,driver會與yarn集群中的executor進行大量的通訊,會造成客戶機網絡卡流量的大量增加.

給namenode傳送訊息啟動executor。

yarn-cluster提交任務方式

提交命令

./spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar100
或者

./spark-submit --master yarn-cluster--class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar100
執行原理**

執行流程

rs收到請求後隨機在一台nm(nodemanager)上啟動am(相當於driver端)。

am啟動,am傳送請求到rs,請求一批container用於啟動excutor。

rs返回一批nm節點給am。

am連線到nm,傳送請求到nm啟動excutor。

excutor反向註冊到am所在的節點的driver。driver傳送task到excutor。

總結yarn-cluster主要用於生產環境中,因為driver執行在yarn集群中某一台nodemanager中,每次提交任務的driver所在的機器都是隨機的,不會產生某一台機器網絡卡流量激增的現象,缺點是任務提交後不能看到日誌。只能通過yarn檢視日誌。

給namenode傳送訊息啟動excutor。

任務排程。

yarn模式執行spark

yarn上啟動spark有二種模式 yarn client模式 和 yarn cluster模式 yarn cluster模式 框架在集群中啟動driver程式 yarn client模式 框架在client中啟動driver程式 master 引數可以簡單配置成yarn client 或者 yar...

(8)Spark 2 0 0 檢視job 歷史日誌

在使用spark的時候,有時候我們會關注job的歷史日誌,但是在spark中預設情況下,歷史日誌是關閉的,在本篇部落格中主要介紹一下如何啟動spark的歷史日誌。博主的環境為 如何安裝spark的偽分布,請參考博文 spark 2.0.0 偽分布安裝 將模板檔案修改為配置檔案 cp spark de...

yarn 日誌聚集配置

日誌聚集是yarn提供的日誌 化管理功能,它能將執行完成的container 任務日誌上傳到hdfs上,從而減輕nodemanager負載,且提供乙個 化儲存和分析機制。預設情況下,container 任務日誌存在在各個nodemanager上,如果啟用日誌聚集功能需要額外的配置。1 yarn.lo...