本課主題
spark效能真正的殺手
資料傾斜兩大直接致命性的的後果:
資料傾斜最殺人就是 out-of-memory (oom),一般oom都是由於資料傾斜所致!
速度變慢、特別慢、非常慢、極端的慢、不可接受的慢。
資料傾斜基本特徵:個別 task處理大量資料
20%和80%,基本上都存在業務熱點問題,這是現實問題!
資料傾斜是多麼痛
資料傾斜是因為有部份資料在分配的時候不均衡
資料傾斜的定位:
webui,可以清晰的看見哪些個 task 執行的資料量大小;
log,log的乙個好處可以清晰的告欣你那一行出現問題oom,同時可以清晰的看到在具體那個stage 出現資料傾斜(資料傾斜一般是在shuffle 過程中產生的),從而定位具體shuffle 的**, 也有可能發現絕大多數 task 非常快,但是個別 task 非常慢;
**走讀,重點看 join、groupbykey、reducebykey等的關鍵**;
對資料特徵分布進行分析;
下一節課再談資料傾斜
Spark經典案例之資料排序
業務場景 資料排序 1 資料排序 是許多實際任務執行時要完成的第一項工作,比如學生成績評比 資料建立索引等。這個例項和資料去重類似,都是先對原始資料進行初步處理,為進一步的資料操作打好基礎。1 需求描述 對輸入檔案中資料進行排序。輸入檔案中的每行內容均為乙個數字,即乙個資料。要求在輸出中每行有兩個間...
spark經典面試題
1 寬依賴 乙個分割槽對應多個分割槽,這就表明有shuffle過程,父分割槽資料經過shuffle過程的hash分割槽器劃分子rdd。例如 groupbykey reducebykey sortbykey等操作,shuffle可以理解為資料從原分割槽打亂重組到新分割槽 2 窄依賴 乙個分割槽對應乙個...
Spark經典案例之資料去重
資料格式 flie1 2012 3 1 a 2012 3 2 b 2012 3 3 c 2012 3 4 d 2012 3 5 a 2012 3 6 b 2012 3 7 c 2012 3 3 c flie2 2012 3 1 b 2012 3 2 a 2012 3 3 b 2012 3 4 d 2...