hadoop任務提速選項

mapred.map.tasks.speculative.execution=true

mapred.reduce.tasks.speculative.execution=true

這兩個是推測執行的配置項，它們預設值是true

所謂的推測執行，就是當所有task都開始執行之後，job tracker會統計所有任務的平均進度，如果某個task所在的task node機器配置比較低或者cpu load很高（原因很多），導致任務執行比總體任務的平均執行要慢，此時job tracker會啟動乙個新的任務（duplicate task），然後原有任務和新任務哪個先執行完就把另外乙個kill掉，這也是我們經常在job tracker頁面看到任務執行成功，但是總有些任務被kill，就是這個原因。

有以下幾種情況最好是將那個引數設為false：

1.當執行的任務相比集群其他任務執行時間非常長，占用的slot數很多。

這種情況下會推斷為任務執行的較慢，會啟動更多的task，而slot資源本身就非常的緊張，又翻倍往上長，集群上的其他任務就根本搶不到slot了，對集群是危害很大的事情。

2.當任務是操作redis，hbase這種中間儲存層的時候。

像對這些中間儲存層進行讀寫操作的時候，它們本身就承擔著壓力，推斷執行一開，我勒個去了，壓力就要翻倍，這對於效能是一件非常不好的事情。

暫時想到這麼多~

hadoop任務提速選項

hadoop 任務執行優化

Hadoop 任務排程系統比較

「十四五規劃」重點任務數字經濟提速

hadoop任務提速選項

hadoop 任務執行優化

Hadoop 任務排程系統比較

「十四五規劃」重點任務 數字經濟提速

相關推薦

「十四五規劃」重點任務數字經濟提速