spark推測執行填坑

1、spark推測執行開啟

設定 spark.speculation=true即可

額外設定

1. spark.speculation .interval 100：檢測週期，單位毫秒； 2. spark.speculation .quantile 0.75：完成task的百分比時啟動推測； 3. spark.speculation .multiplier

1.5：比其他的慢多少倍時啟動推測。

2、spark開啟推測執行的好處

推測執行是指對於乙個stage裡面執行慢的task，會在其他節點的executor上再次啟動這個task，如果其中乙個task例項執行成功則將這個最先完成的task的計算結果作為最終結果，同時會乾掉其他executor上執行的例項，從而加快執行速度

3、問題

我們的spark任務會將計算結果寫入kafka，再有logstash寫入es。

最近由於kafka集群寫入慢，甚至寫不進去，spark任務直接卡住，為防止卡住的情況發生，加了推測執行，但發現跑出來的資料存在重複的情況。同一條資料寫了2次，排查發現是由於推測執行的問題，像這種講執行結果寫入kafka的場景，不適用推測執行，因為乙個task雖然沒有執行完，但是一部分結果已經輸出了，啟動多個task就會造成資料重複，所以具體的配置還是要看應用的場景來做權衡

spark推測執行填坑

Spark優化推測執行機制

Hive 推測執行

MySQL坑與填坑

spark推測執行 填坑

Spark優化 推測執行機制

Hive 推測執行

MySQL坑與填坑

相關推薦

spark推測執行填坑

Spark優化推測執行機制