spark 資源引數調優

2021-09-07 07:23:35 字數 664 閱讀 1401

了解完了spark作業執行的基本原理之後,對資源相關的引數就容易理解了。所謂的spark資源引數調優,其實主要就是對spark執行過程中各個使用資源的地方,通過調節各種引數,來優化資源使用的效率,從而提公升spark作業的執行效能。以下引數就是spark中主要的資源引數,每個引數都對應著作業執行原理中的某個部分,我們同時也給出了乙個調優的參考值。

資源引數的調優,沒有乙個固定的值,需要同學們根據自己的實際情況(包括spark作業中的shuffle運算元量、rdd持久化運算元量以及spark web ui中顯示的作業gc情況),同時參考本篇文章中給出的原理以及調優建議,合理地設定上述引數。

./bin/spark-submit \

--master yarn-cluster \

--num-executors 100 \

--executor-memory 6g \

--executor-cores 4 \

--driver-memory 1g \

--conf spark.default.parallelism=1000 \

--conf spark.storage.memoryfraction=0.5 \

--conf spark.shuffle.memoryfraction=0.3 \

參考:

spark引數調優

了解完了spark作業執行的基本原理之後,對資源相關的引數就容易理解了。所謂的spark資源引數調優,其實主要就是對spark執行過程中各個使用資源的地方,通過調節各種引數,來優化資源使用的效率,從而提公升spark作業的執行效能。以下引數就是spark中主要的資源引數,每個引數都對應著作業執行原理...

Spark配置引數調優

cpu各核負載量很不均勻,記憶體也沒有用滿,系統的資源沒有得到充分利用,該如何利用?1 spark的rdd的partition個數建立task的個數是對應的 2 partition的個數在hadoop的rdd中由block的個數決定的。記憶體 系統總記憶體數 work記憶體大小 work數 spar...

spark常用調優引數

引數說明 該引數用於設定每個stage的預設task數量。這個引數極為重要,如果不設定可能會直接影響你的spark作業效能。引數調優建議 spark作業的預設task數量為500 1000個較為合適。很多同學常犯的乙個錯誤就是不去設定這個引數,那麼此時就會導致spark自己根據底層hdfs的bloc...