關於spark調優相關事宜,本章先自萬物起始之初,集群的資源優化講起。
可以在—master 之後—class之前指定如下引數:
–driver-cores :
指定driver端使用的core數。
–driver-memory:
指定driver端使用的記憶體數,如果driver端有**資料廣播的時候,可以多申請記憶體。
–executor-cores:
指定executor端使用的core數,乙個core可以某個時刻並行執行1個task,executor 的core越多代表可以並行執行的task越多。
–executor-memory:
指定executor端使用的記憶體,如果shuffle量多、對rdd持久化多、task建立物件多,可以申請多一些記憶體。
–total-executor-cores:
standalone集群中,指定當前spark應用程式最多使用多少core。在standalone集群中預設提交乙個spark應用程式,這個spark應用程式會使用當前集群所有的資源。
–num-executor:
在yarn集群中預設為乙個提交的spark應用程式啟動幾個executor,預設啟動2個。
除了以上提交任務時可以指定引數外,也可以在**中設定(不建議):sparkconf.set(k,v)在**中這種方式設定。
也可以在spark提交任務的客戶端的spark/conf/spark-defaults.xml(不建議)下配置以下引數:
spark.driver.cores
spark.driver.memory
spark.exeuctor.cores
spark.executor.memory
spark.cores.max
spark 資源引數調優
了解完了spark作業執行的基本原理之後,對資源相關的引數就容易理解了。所謂的spark資源引數調優,其實主要就是對spark執行過程中各個使用資源的地方,通過調節各種引數,來優化資源使用的效率,從而提公升spark作業的執行效能。以下引數就是spark中主要的資源引數,每個引數都對應著作業執行原理...
Spark效能優化 開發調優篇
1 前言 在大資料計算領域,spark已經成為了越來越流行 越來越受歡迎的計算平台之一。spark的功能涵蓋了大資料領域的離線批處理 sql類處理 流式 實時計算 機器學習 圖計算等各種不同型別的計算操作,應用範圍與前景非常廣泛。在美團 大眾點評,已經有很多同學在各種專案中嘗試使用spark。大多數...
Spark(十二) 效能調優篇
一段程式只能完成功能是沒有用的,只能能夠穩定 高效率地執行才是生成環境所需要的。本篇記錄了spark各個角度的調優技巧,以備不時之需。額。從最基本的開始講,可能一些剛接觸spark的人不是很清楚spark的一些引數變數到底要配置在 可以通過三種方式配置引數,任選其一皆可。程式中通過sparkconf...