sparkshuffle應該如何調優

2021-12-30 09:56:15 字數 2908 閱讀 6610

1:sparkconf.set("spark.shuffle.file.buffer","64k") --不建議使用,因為這麼寫相當於硬編碼 --最高

2:在conf/spark-defaults.conf ---不建議使用,相當於硬編碼 --第三

3:./spark-submit --conf spark.shuffle.file.buffer=64 --conf spark.reducer.maxsizeinflight=96 --建議使用 --第二

spark.shuffle.file.buffer

預設值:32k

引數說明:該引數用於設定shuffle write task的bufferedoutputstream的buffer緩衝大小。將資料寫到磁碟檔案之前,會先寫入buffer緩衝中,待緩衝寫滿之後,才會溢寫到磁碟。

調優建議:如果作業可用的記憶體資源較為充足的話,可以適當增加這個引數的大小(比如64k),從而減少shuffle write過程中溢寫磁碟檔案的次數,也就可以減少磁碟io次數,進而提公升效能。在實踐中發現,合理調節該引數,效能會有1%~5%的提公升。

spark.reducer.maxsizeinflight

預設值:48m

引數說明:該引數用於設定shuffle read task的buffer緩衝大小,而這個buffer緩衝決定了每次能夠拉取多少資料。

調優建議:如果作業可用的記憶體資源較為充足的話,可以適當增加這個引數的大小(比如96m),從而減少拉取資料的次數,也就可以減少網路傳輸的次數,進而提公升效能。在實踐中發現,合理調節該引數,效能會有1%~5%的提公升。

spark.shuffle.io.maxretries

預設值:3

引數說明:shuffle read task從shuffle write task所在節點拉取屬於自己的資料時,如果因為網路異常導致拉取失敗,是會自動進行重試的。該引數就代表了可以重試的最大次數。如果在指定次數之內拉取還是沒有成功,就可能會導致作業執行失敗。

調優建議:對於那些包含了特別耗時的shuffle操作的作業,建議增加重試最大次數(比如60次),以避免由於jvm的full gc或者網路不穩定等因素導致的資料拉取失敗。在實踐中發現,對於針對超大資料量(數十億~上百億)的shuffle過程,調節該引數可以大幅度提公升穩定性。

shuffle file not find taskscheduler不負責重試task,由dagscheduler負責重試stage

spark.shuffle.io.retrywait

預設值:5s

引數說明:具體解釋同上,該引數代表了每次重試拉取資料的等待間隔,預設是5s。

調優建議:建議加大間隔時長(比如60s),以增加shuffle操作的穩定性。

spark.shuffle.memoryfraction

預設值:0.2

引數說明:該引數代表了executor記憶體中,分配給shuffle read task進行聚合操作的記憶體比例,預設是20%。

調優建議:如果記憶體充足,而且很少使用持久化操作,建議調高這個比例,給shuffle read的聚合操作更多記憶體,以避免由於記憶體不足導致聚合過程中頻繁讀寫磁碟。在實踐中發現,合理調節該引數可以將效能提公升10%左右。

spark.shuffle.manager

預設值:sort|hash

引數說明:該引數用於設定shufflemanager的型別。spark 1.5以後,有三個可選項:hash、sort和tungsten-sort。hashshufflemanager是spark 1.2以前的預設選項,但是spark 1.2以及之後的版本預設都是sortshufflemanager了。tungsten-sort與sort類似,但是使用了tungsten計畫中的堆外記憶體管理機制,記憶體使用效率更高。

調優建議:由於sortshufflemanager缺省會對資料進行排序,因此如果你的業務邏輯中需要該排序機制的話,則使用預設的sortshufflemanager就可以;而如果你的業務邏輯不需要對資料進行排序,那麼建議參考後面的幾個引數調優,通過bypass機制或優化的hashshufflemanager來避免排序操作,同時提供較好的磁碟讀寫效能。這裡要注意的是,tungsten-sort要慎用,因為之前發現了一些相應的bug。

spark.shuffle.sort.bypassmergethreshold----針對sortshuffle

預設值:200

引數說明:當shufflemanager為sortshufflemanager時,如果shuffle read task的數量小於這個閾值(預設是200),則shuffle write過程中不會進行排序操作,而是直接按照未經優化的hashshufflemanager的方式去寫資料,但是最後會將每個task產生的所有臨時磁碟檔案都合併成乙個檔案,並會建立單獨的索引檔案。

調優建議:當你使用sortshufflemanager時,如果的確不需要排序操作,那麼建議將這個引數調大一些,大於shuffle read task的數量。那麼此時就會自動啟用bypass機制,map-side就不會進行排序了,減少了排序的效能開銷。但是這種方式下,依然會產生大量的磁碟檔案,因此shuffle write效能有待提高。

spark.shuffle.consolidatefiles----針對hashshuffle

預設值:false

引數說明:如果使用hashshufflemanager,該引數有效。如果設定為true,那麼就會開啟consolidate機制,會大幅度合併shuffle write的輸出檔案,對於shuffle read task數量特別多的情況下,這種方法可以極大地減少磁碟io開銷,提公升效能。

調優建議:如果的確不需要sortshufflemanager的排序機制,那麼除了使用bypass機制,還可以嘗試將spark.shffle.manager引數手動指定為hash,使用hashshufflemanager,同時開啟consolidate機制。在實踐中嘗試過,發現其效能比開啟了bypass機制的sortshufflemanager要高出10%~30%。

Spark Shuffle記憶體分析

分布式系統裡的shuffle 階段往往是非常複雜的,而且分支條件也多,我只能按著我關注的線去描述。肯定會有不少謬誤之處,我會根據自己理解的深入,不斷更新這篇文章。前言用spark寫程式,乙個比較蛋疼的地方就是oom,或者gc嚴重,導致程式響應緩慢,一般這種情況都會出現在shuffle階段。shuff...

Spark shuffle流程細則

hadoop中的shuffle存在map任務和reduce任務之間,而spark中的shuffle過程存在stage之間。shuffle操作分為兩種,分別是寫操作和讀操作。基於排序的shuffle操作 基於雜湊的shuffle操作會產生很多檔案,這對檔案系統來說是乙個非誠大的負擔,而且在總資料量不大...

spark shuffle內在原理說明

在mapreduce框架中,shuffle是連線map和reduce之間的橋梁,map的輸出要用到reduce中必須經過shuffle這個環節,shuffle的效能高低直接影響了整個程式的效能和吞吐量。spark作為mapreduce框架的一種實現,自然也實現了shuffle的邏輯。shuffle是...