standalone模式兩種提交任務方式
standalone-client提交任務方式
提交命令
./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000
或者
./spark-submit --master spark://node1:7077 --deploy-mode client --class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100
執行原理**
執行流程
client模式提交任務後,會在客戶端啟動driver程序。
資源申請成功,driver端將task傳送到worker端執行。
worker將task執行結果返回到driver端。
總結standalone-cluster提交任務方式
提交命令
./spark-submit --master spark://node1:7077 --deploy-mode cluster--class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100
執行原理**
執行流程
cluster模式提交應用程式後,會向master請求啟動driver.
master接受請求,隨機在集群一台節點啟動driver程序。
driver啟動後為當前的應用程式申請資源。
driver端傳送task到worker節點上執行。
worker將執**況和執行結果返回給driver端。
總結1. driver負責應用程式資源的申請
2. 任務的分發。
3. 結果的**。
4. 監控task執**況。
yarn模式兩種提交任務方式
yarn-client提交任務方式
提交命令
./spark-submit --master yarn --class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar100
或者
./spark-submit --master yarn–client --class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar100
或者
./spark-submit --master yarn --deploy-mode client --class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar100
執行原理**
執行流程
rs收到請求,隨機選擇一台nm(nodemanager)啟動am。這裡的nm相當於standalone中的worker節點。
am啟動後,會向rs請求一批container資源,用於啟動executor.
rs會找到一批nm返回給am,用於啟動executor。
am會向nm傳送命令啟動executor。
executor啟動後,會反向註冊給driver,driver傳送task到executor,執**況和結果返回給driver端。
總結yarn-client模式同樣是適用於測試,因為driver執行在本地,driver會與yarn集群中的executor進行大量的通訊,會造成客戶機網絡卡流量的大量增加.
給namenode傳送訊息啟動executor。
yarn-cluster提交任務方式
提交命令
./spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar100
或者
./spark-submit --master yarn-cluster--class org.apache.spark.examples.sparkpi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar100
執行原理**
執行流程
rs收到請求後隨機在一台nm(nodemanager)上啟動am(相當於driver端)。
am啟動,am傳送請求到rs,請求一批container用於啟動excutor。
rs返回一批nm節點給am。
am連線到nm,傳送請求到nm啟動excutor。
excutor反向註冊到am所在的節點的driver。driver傳送task到excutor。
總結yarn-cluster主要用於生產環境中,因為driver執行在yarn集群中某一台nodemanager中,每次提交任務的driver所在的機器都是隨機的,不會產生某一台機器網絡卡流量激增的現象,缺點是任務提交後不能看到日誌。只能通過yarn檢視日誌。
給namenode傳送訊息啟動excutor。
任務排程。
yarn模式執行spark
yarn上啟動spark有二種模式 yarn client模式 和 yarn cluster模式 yarn cluster模式 框架在集群中啟動driver程式 yarn client模式 框架在client中啟動driver程式 master 引數可以簡單配置成yarn client 或者 yar...
(8)Spark 2 0 0 檢視job 歷史日誌
在使用spark的時候,有時候我們會關注job的歷史日誌,但是在spark中預設情況下,歷史日誌是關閉的,在本篇部落格中主要介紹一下如何啟動spark的歷史日誌。博主的環境為 如何安裝spark的偽分布,請參考博文 spark 2.0.0 偽分布安裝 將模板檔案修改為配置檔案 cp spark de...
yarn 日誌聚集配置
日誌聚集是yarn提供的日誌 化管理功能,它能將執行完成的container 任務日誌上傳到hdfs上,從而減輕nodemanager負載,且提供乙個 化儲存和分析機制。預設情況下,container 任務日誌存在在各個nodemanager上,如果啟用日誌聚集功能需要額外的配置。1 yarn.lo...