1. 在hadoop 上執行乙個job, 主要就是mr,而mr的優化就是主要的關鍵。
從六個方面考慮:資料輸入、map階段、reduce階段、io傳輸、資料傾斜問題和常用的調優引數2. hadoop常用案例inputformat: combinetextinputformat作為輸入,解決大量小檔案場景.
map階段:調整 io.sort.mb、sort.spil.percent,增大spill記憶體上限,減少spill次數。
調整 io.sort.factor,增大merge的數目,減少merge次數,縮短mr處理時間。
不影響業務情況下,先commbine處理,減少 i/o 。
reduce階段:合理設定reduce個數,
調整slow start comp letedmaps引數,使map執行到一定程度後,reduce也執行起來.
如何可以,規避使用reduce。
i/o 傳輸:a. 採用資料壓縮 b. 使用sequencefile二進位制檔案.
資料傾斜:a.自定義分割槽 b.抽樣和範圍劃分 c.commbine d.使用mapjoin 不用 reducejoin
常用調優:有點多,**先放置。
不是很實用,有好的上新。3. 補充考察點
sparkshuffle和hadoopshuffle原理、對比
mysql考察 mysql資料庫考察點
1 基礎考察點 整數型別 長度可以為整數型別指定寬度。int 3 輸入的是1234超過了可以繼續儲存,不受影響,只是在寬度不夠時用0填充 實數型別 float double decimal decimal可儲存比bigint還大的整數 可以用於儲存精確的小數 float和double型別支援使用標準...
c 匿名函式考察點
一般的函式形式以及呼叫形式 int foo int a,int b foo 1,2 首先是匿名函式形式 捕獲列表 預設是按值捕獲 引數列表 int 函式返回值 int c2 int a,int b int 1,2 為了能夠復用lamba表示式 auto f int a,int b int int c...
php 流程控制考察點
一 php遍歷陣列的三種方式及各自區別 1.1 for迴圈 只能遍歷索引陣列 1.2 foreach 可以遍歷索引陣列和關聯陣列 會執行reset 也就相當於把指標指到陣列開頭動作 1.3 while,list each 組合 如 while list key,value each array ex...