hadoop 細節考察點

1. 在hadoop 上執行乙個job, 主要就是mr，而mr的優化就是主要的關鍵。

從六個方面考慮：資料輸入、map階段、reduce階段、io傳輸、資料傾斜問題和常用的調優引數

inputformat: combinetextinputformat作為輸入，解決大量小檔案場景.

map階段：調整 io.sort.mb、sort.spil.percent,增大spill記憶體上限，減少spill次數。

調整 io.sort.factor,增大merge的數目，減少merge次數，縮短mr處理時間。

不影響業務情況下，先commbine處理，減少 i/o 。

reduce階段：合理設定reduce個數，

調整slow start comp letedmaps引數，使map執行到一定程度後，reduce也執行起來.

如何可以，規避使用reduce。

i/o 傳輸：a. 採用資料壓縮 b. 使用sequencefile二進位制檔案.

資料傾斜：a.自定義分割槽 b.抽樣和範圍劃分 c.commbine d.使用mapjoin 不用 reducejoin

常用調優：有點多，**先放置。

2. hadoop常用案例

不是很實用，有好的上新。

3. 補充考察點

sparkshuffle和hadoopshuffle原理、對比

mysql考察 mysql資料庫考察點

1 基礎考察點整數型別長度可以為整數型別指定寬度。int 3 輸入的是1234超過了可以繼續儲存，不受影響，只是在寬度不夠時用0填充實數型別 float double decimal decimal可儲存比bigint還大的整數可以用於儲存精確的小數 float和double型別支援使用標準...

c 匿名函式考察點

一般的函式形式以及呼叫形式 int foo int a,int b foo 1,2 首先是匿名函式形式捕獲列表預設是按值捕獲引數列表 int 函式返回值 int c2 int a,int b int 1,2 為了能夠復用lamba表示式 auto f int a,int b int int c...

php 流程控制考察點

一 php遍歷陣列的三種方式及各自區別 1.1 for迴圈只能遍歷索引陣列 1.2 foreach 可以遍歷索引陣列和關聯陣列會執行reset 也就相當於把指標指到陣列開頭動作 1.3 while,list each 組合如 while list key,value each array ex...

hadoop 細節考察點

mysql考察 mysql資料庫考察點

c 匿名函式考察點

php 流程控制考察點

相關推薦