mapred.map.tasks.speculative.execution=true
mapred.reduce.tasks.speculative.execution=true
這兩個是推測執行的配置項,它們預設值是true
所謂的推測執行,就是當所有task都開始執行之後,job tracker會統計所有任務的平均進度,如果某個task所在的task node機器配置比較低或者cpu load很高(原因很多),導致任務執行比總體任務的平均執行要慢,此時job tracker會啟動乙個新的任務(duplicate task),然後原有任務和新任務哪個先執行完就把另外乙個kill掉,這也是我們經常在job tracker頁面看到任務執行成功,但是總有些任務被kill,就是這個原因。
有以下幾種情況最好是將那個引數設為false:
1.當執行的任務相比集群其他任務執行時間非常長,占用的slot數很多。
這種情況下會推斷為任務執行的較慢,會啟動更多的task,而slot資源本身就非常的緊張,又翻倍往上長,集群上的其他任務就根本搶不到slot了,對集群是危害很大的事情。
2.當任務是操作redis,hbase這種中間儲存層的時候。
像對這些中間儲存層進行讀寫操作的時候,它們本身就承擔著壓力,推斷執行一開,我勒個去了,壓力就要翻倍,這對於效能是一件非常不好的事情。
暫時想到這麼多~
hadoop 任務執行優化
1.推測式執行 如果jobtracker 發現有拖後的任務,會再啟動乙個相同的備份任務,然後哪個先執行完就會去kill掉另乙個,因此會在監控頁面上經常能看到正常執行完的作業會有被kill掉的任務。2.推測式執行預設開啟,但如果是 問題,並不能解決問題,而且會使集群更慢,通過在mapred site....
Hadoop 任務排程系統比較
在hadoop應用,隨著業務指標的迭代,而使其日趨複雜化的時候,管理hadoop的相關應用會變成一件頭疼的事情,如 作業的依賴排程,任務的運 況的監控,異常問題的排查等,這些問題會是的我們日常的工作變得複雜。那麼,在沒有條件和精力去開發一套排程系統的情況下,我們去選擇一款第三方開源的排程系統,來盡量...
「十四五規劃」重點任務 數字經濟提速
在1月10日閉幕的人大代表大會上我國十四五規劃明確了數字經濟發展路線圖。北京也明確將 打造全球數字經濟標桿城市 作為北京市 十四五 期間的重點任務。從任何乙個角度看,現在的中國數字經濟都站在乙個重要的拐點上。在拐點之後,中國的數字經濟會何去何從需要從技術變遷的方向,商業模式的創新,監管的走向以及國際...