〇、說明
1.spark的部署模式主要有:
local模式;
standalone模式;
yarn模式:yarn—client,yarn_master;
mesos模式:coarse-grained mode,fine-grained mode。
整理了幾篇說明性blog:
spark集群三種部署模式的區別
spark常用三種執行模式
spark的三種模式的詳細執行過程
spark standalone架構設計要點分析
一、準備
1.hdfs
2.yarn
3.jdk8
2.解壓
tar -zxvf scala-2.11.8.tgz -c ../local/
3.修改環境變數
sudo vi /etc/profile
#在檔案最後加入以下兩行(根據自己安裝目錄)
export scala_home=/home/hadoop/local/scala-2.11.8
export path=$path:$scala_home/bin
4.驗證
scala -verison
wget
2.解壓重新命名
tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -c ../local
mv spark-2.4.0-bin-hadoop2.7/ spark-2.4.0/
3.環境變數
sudo vi /etc/profile.d/custom.sh
#spark path,新增到檔案最後兩行
export spark_home=~/local/spark-2.4.0
export path=$/bin:$/sbin:$path
#生效source /etc/profile.d/custom.sh
複製乙份spark的spark-env.sh模版,然後新增hadoop_conf_dir一項。
cp conf/spark-env.sh.template conf/spark-env.sh
echo "export hadoop_conf_dir=~/local/hadoop-3.2.0/etc/hadoop" >> conf/spark-env.sh
四、驗證
1.spark on yarn-client
spark-shell --master yarn-client #舊版本,被下條命令替代
spark-shell --master yarn --deploy-mode client #spark2.0以後
2.spark on yarn-cluster
spark-shell --master yarn --deploy-mode cluster
Spark On YARN部署模式下的記憶體分配情況
本文主要了解spark on yarn部署模式下的記憶體分配情況,因為沒有深入研究spark的源 所以只能根據日誌去看相關的源 從而了解 為什麼會這樣,為什麼會那樣 按照spark應用程式中的driver分布方式不同,spark on yarn有兩種模式 yarn client模式 yarn clu...
spark on yarn日誌切割
由於spark on yarn的日誌會在stderr裡面一直追加,而且streaming又是長應用,那麼stderr會一直增長。解決辦法就是把stderr按天切割,這樣我們就可以刪除之前的日誌了。1.首先,把集群中的hadoop的log4j檔案 etc hadoop conf log4j.prope...
Spark On Yarn徹底解密
spark on yarn 徹底解密 本期內容 1 hadoop yarn解密 2 spark on yarn 解密 一 hadoop yarn 解析 1 yarn是hadoop推出整個分布式 大資料 集群的資源管理器,負責資源的管理和分配,基於yarn我們可以在同乙個大資料集群上同時執行多個計算框...