1.在編寫**的時候,通過建立sparkconf的時候,使用set方法配置.
2.動態載入:在使用spark-submit提交**上集群的時候,通過spark-submit的引數進行配置,可以通過spark-submit --help指令檢視能夠配置的引數.
3.通過spark-default.conf配置檔案配置.
如果配置的引數能夠同時在這三種配置方法中有效的話,引數值優先度優先使用**中直接呼叫sparkconf設定的引數,其次是spark-submit最後才是spark-default,沒有設定的才使用預設值.
作用域:
1.僅在spark-default.conf中配置有效的引數
這類引數作用於master和worker的機器,在spark第一次啟動的時候生效,這就意味著和提交程式的客戶端無關,這類引數通常在類master.scala和worker.scala中有原始碼,配置完需要重啟spark系統生效。
在master.scala和worker.scala中初始化過程使用到的引數,只能通過spark-default.conf配置,並且重啟集群或重啟對應的worker之後才會生效
例如:
spark.deploy.spreadout,spark.deploy.defaultcores這兩個引數,在master啟動的時候賦值,所以不能通過上面所說前兩種方法設定,只能通過spark-****ult.conf設定並重啟集群生效.
2.在spark-submit 和 spark-default.conf中配置有效:
這類引數通常和driver有關的配置,使用spark-submit提交jar的過程中,有一段呼叫sparksumit物件反射啟動jar包物件的過程,也就是說,在這個過程中使用到的引數,不能通過sparkconf配置。例如driver相關的幾個引數:
Spark配置引數調優
cpu各核負載量很不均勻,記憶體也沒有用滿,系統的資源沒有得到充分利用,該如何利用?1 spark的rdd的partition個數建立task的個數是對應的 2 partition的個數在hadoop的rdd中由block的個數決定的。記憶體 系統總記憶體數 work記憶體大小 work數 spar...
Spark 效能相關引數配置詳解 Storage篇
隨著spark的逐漸成熟完善,越來越多的可配置引數被新增到spark中來,本文試圖通過闡述這其中部分引數的工作原理和配置思路,和大家一起 一下如何根據實際場合對spark進行配置優化。由於篇幅較長,所以在這裡分篇組織,如果要看最新完整的網頁版內容,可以戳這裡 主要是便於更新內容 storage相關配...
Spark引數詳解
spark shell 是spark 自帶的互動式 shell 程式,方便使用者進行互動式程式設計,使用者可以在該命令列下可以用scala編寫spark程式,適合學習測試時使用!示例spark shell可以攜帶引數 spark shell master local n 數字n表示在本地模擬n個執行...