Spark on yarn安裝部署

2021-09-17 01:50:59 字數 1526 閱讀 9456

〇、說明

1.spark的部署模式主要有:

local模式;

standalone模式;

yarn模式:yarn—client,yarn_master;

mesos模式:coarse-grained mode,fine-grained mode。

整理了幾篇說明性blog:

spark集群三種部署模式的區別

spark常用三種執行模式

spark的三種模式的詳細執行過程

spark standalone架構設計要點分析

一、準備

1.hdfs

2.yarn

3.jdk8

2.解壓

tar -zxvf scala-2.11.8.tgz -c ../local/
3.修改環境變數

sudo vi /etc/profile

#在檔案最後加入以下兩行(根據自己安裝目錄)

export scala_home=/home/hadoop/local/scala-2.11.8

export path=$path:$scala_home/bin

4.驗證

scala -verison
wget
2.解壓重新命名

tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -c ../local

mv spark-2.4.0-bin-hadoop2.7/ spark-2.4.0/

3.環境變數

sudo vi /etc/profile.d/custom.sh

#spark path,新增到檔案最後兩行

export spark_home=~/local/spark-2.4.0

export path=$/bin:$/sbin:$path

#生效source /etc/profile.d/custom.sh

複製乙份spark的spark-env.sh模版,然後新增hadoop_conf_dir一項。

cp conf/spark-env.sh.template conf/spark-env.sh

echo "export hadoop_conf_dir=~/local/hadoop-3.2.0/etc/hadoop" >> conf/spark-env.sh

四、驗證

1.spark on yarn-client

spark-shell --master yarn-client #舊版本,被下條命令替代

spark-shell --master yarn --deploy-mode client #spark2.0以後

2.spark on yarn-cluster

spark-shell --master yarn --deploy-mode cluster

Spark On YARN部署模式下的記憶體分配情況

本文主要了解spark on yarn部署模式下的記憶體分配情況,因為沒有深入研究spark的源 所以只能根據日誌去看相關的源 從而了解 為什麼會這樣,為什麼會那樣 按照spark應用程式中的driver分布方式不同,spark on yarn有兩種模式 yarn client模式 yarn clu...

spark on yarn日誌切割

由於spark on yarn的日誌會在stderr裡面一直追加,而且streaming又是長應用,那麼stderr會一直增長。解決辦法就是把stderr按天切割,這樣我們就可以刪除之前的日誌了。1.首先,把集群中的hadoop的log4j檔案 etc hadoop conf log4j.prope...

Spark On Yarn徹底解密

spark on yarn 徹底解密 本期內容 1 hadoop yarn解密 2 spark on yarn 解密 一 hadoop yarn 解析 1 yarn是hadoop推出整個分布式 大資料 集群的資源管理器,負責資源的管理和分配,基於yarn我們可以在同乙個大資料集群上同時執行多個計算框...