Spark調優(一)資源優化篇

2021-09-21 18:36:57 字數 909 閱讀 1218

關於spark調優相關事宜,本章先自萬物起始之初,集群的資源優化講起。

可以在—master 之後—class之前指定如下引數

–driver-cores :

指定driver端使用的core數。

–driver-memory:

指定driver端使用的記憶體數,如果driver端有**資料廣播的時候,可以多申請記憶體。

–executor-cores:

指定executor端使用的core數,乙個core可以某個時刻並行執行1個task,executor 的core越多代表可以並行執行的task越多。

–executor-memory:

指定executor端使用的記憶體,如果shuffle量多、對rdd持久化多、task建立物件多,可以申請多一些記憶體。

–total-executor-cores:

standalone集群中,指定當前spark應用程式最多使用多少core。在standalone集群中預設提交乙個spark應用程式,這個spark應用程式會使用當前集群所有的資源。

–num-executor:

在yarn集群中預設為乙個提交的spark應用程式啟動幾個executor,預設啟動2個。

除了以上提交任務時可以指定引數外,也可以在**中設定(不建議):sparkconf.set(k,v)在**中這種方式設定。

也可以在spark提交任務的客戶端的spark/conf/spark-defaults.xml(不建議)下配置以下引數:

spark.driver.cores

spark.driver.memory

spark.exeuctor.cores

spark.executor.memory

spark.cores.max

spark 資源引數調優

了解完了spark作業執行的基本原理之後,對資源相關的引數就容易理解了。所謂的spark資源引數調優,其實主要就是對spark執行過程中各個使用資源的地方,通過調節各種引數,來優化資源使用的效率,從而提公升spark作業的執行效能。以下引數就是spark中主要的資源引數,每個引數都對應著作業執行原理...

Spark效能優化 開發調優篇

1 前言 在大資料計算領域,spark已經成為了越來越流行 越來越受歡迎的計算平台之一。spark的功能涵蓋了大資料領域的離線批處理 sql類處理 流式 實時計算 機器學習 圖計算等各種不同型別的計算操作,應用範圍與前景非常廣泛。在美團 大眾點評,已經有很多同學在各種專案中嘗試使用spark。大多數...

Spark(十二) 效能調優篇

一段程式只能完成功能是沒有用的,只能能夠穩定 高效率地執行才是生成環境所需要的。本篇記錄了spark各個角度的調優技巧,以備不時之需。額。從最基本的開始講,可能一些剛接觸spark的人不是很清楚spark的一些引數變數到底要配置在 可以通過三種方式配置引數,任選其一皆可。程式中通過sparkconf...