spark推測機制及引數設定

2022-07-06 22:54:17 字數 707 閱讀 5626

推測執行機制

推測任務是指對於乙個stage裡面拖後腿的task,會在其他節點的executor上再次啟動這個task,如果其中乙個task例項執行成功則將這個最先完成的task的計算結果作為最終結果,同時會乾掉其他executor上執行的例項。spark推測式執行預設是關閉的,可通過spark.speculation屬性來開啟

推測機制的設定

--conf spark.speculation=true

--conf spark.speculation.interval=100

--conf spark.speculation.quantile=0.9

--conf spark.speculation.multiplier=1.5

1. 當spark.speculation設定為true時,就會對task開啟推測執行,也就是在乙個stage下跑的慢的tasks有機會重新啟動;

2. spark.speculation.interval,100ms,spark檢測tasks推測機制的間隔時間;

3. spark.speculation.quantile,0.9,當乙個stage下多少百分比的tasks執行完畢後才開啟推測執行機制,0.9即90%的任務都執行完畢後開啟推測執行;

4. spark.speculation.multiplier,1.5,乙個task的執行時間是所有task的執行時間中位數的幾倍時,才會被認為該task需要重新啟動。

spark中的引數設定

之前一直在使用spark,對於spark的引數設定了解過部分。最近當被同事問起時,感覺自己又有點模糊。好記性不如爛筆頭。spark的執行模式有多種,這邊就yarn提交的任務進行說明 正常用到的引數如下 bin spark submit master yarn cluster num executor...

Spark優化 推測執行機制

spark job中,乙個stage什麼時候完成,取決於stage下最後乙個task的完成時間。task的完成時間也被很多因素影響,比如partition的分配,executor的資源使用情況,host的執行狀態,集群網路等等。很多情況下因為執行環境導致的task跑的過慢,或者直接卡死,讓task可...

引數設定 pandas引數設定小技巧

python大資料分析記錄 分享 成長 在日常使用pandas的過程中,由於我們所分析的資料表規模 格式上的差異,使得同樣的函式或方法作用在不同資料上的效果存在差異。而pandas有著自己的一套 引數設定系統 可以幫助我們在遇到不同的資料時靈活調節從而達到最好的效果,本文就將介紹pandas中常用的...