#!/bin/sh
bin_dir=$(
cd `dirname $0`;
pwd)
#bin_dir="$(cd $(dirname $bash_source) && pwd)"
log_dir
=$/../logs
log_time=`
date +%y-%m-%d`
#main函式傳入引數
inputfile
='hdfs:'
outputfile
='hdfs:'
spark-submit --class wordcountv2 \
--master yarn
\--deploy-mode client \
--queue default \
--executor-memory 1g \
--num-executors 1
\--conf spark.default.parallelism=
500\
--conf spark.yarn.executor.memoryoverhead=10g \
--jars /opt/cloudera/parcels/hadoop_lzo/lib/hadoop/lib/hadoop-lzo.jar \
/home/spark/jars/myjars/spark-wordcount-2.0-snapshot.jar $inputfile
$outputfile
>
$/wordcount_$.log 2>
&1
–driver-memory
設定driver端記憶體大小,預設1g
如果需要使用collect、take、top運算元將rdd的資料全部拉取到driver上進行處理,那麼必須確保driver的記憶體足夠大,否則會出現oom記憶體溢位的問題(**中不要出現collect,除非在你知道資料量小的情況下)。
–executor-cores
該引數為設定每個executor能夠使用的cpu core的數量,預設為1
–executor-memory
該引數設定的是每個executor分配的記憶體的數量。需要注意的是,該記憶體數量是executor-cores中設定的核心數共用的記憶體數量。一般 6~10g 為宜,最大不超過20g,否則會導致gc代價過高,或資源浪費嚴重。
–num-executors
總的executors數量(總的task數量為executor-cores*num-executors), 預設為2。該值不應該超過佇列總cpu cores的1/3~1/2
–executor-instances
該引數決定了yarn集群中,最多能夠同時啟動的executors的例項個數。yarn中實際能夠啟動的最大executors的數量會小於等於該值。如果不能確定最大能夠啟動的executors數量,建議將該值先設定的盡量大。預設為num-executors數量
spark.driver.maxresultsize
限制每個executor複製資料到driver端的大小
spark.driver.memory
限制所有executor複製資料到driver端的大小
集群實際並行度為spark.executor.cores*spark.executor.instances=160
spark.default.parallelism、spark.sql.shuffle.partitions
這兩個引數一般為實際並行度的2~3倍(spark.executor.cores*spark.executor.instances)
Cache control引數說明
header中的cache control引數說明 php編碼 網頁的快取是由http訊息頭中的 cache control 來控制的,常見的取值有private no cache max age must revalidate等,預設為private。其作用根據不同的重新瀏覽方式分為以下幾種情況 ...
nmap引數說明
目標規範 可以通過主機名,ip位址,網路等 例 scanme.nmap.org,dream4.org 24,192.168.0.1 10.0.0 255.1 254 il 從指定檔案獲取主機或網路 ir 隨機選擇主機,0 不限制掃瞄主機數 exclude 排除指定主機或網路 excludefile ...
toString引數說明
格式化數值 有時,我們可能需要將數值以一定的格式來呈現,就需要對數值進行格式化。我們使用格式字串指定格式。格式字串採用以下形式 axx,其中 a 為格式說明符,指定格式化型別,xx 為精度說明符,控制格式化輸出的有效位數或小數字數。格式說明符 說明 示例 輸出 c 貨幣 2.5.tostring c...