大資料面試題（持續更新）

首先是 mapreduce經過splitinput 輸入分片決定map的個數在用record記錄 key value。然後分為以下三個流程：

map：

輸入 key（long型別偏移量） value（text一行字串）

輸出 key value

shuffle：

合併（merge）map輸出時先輸出到環形記憶體，當記憶體使用率達到60%時開始溢位寫入到檔案，溢位檔案都是小檔案，所以就要合併他們，在這個構成中就會排序，根據key值比較排序

排序（sort）如果你自定義了key的資料型別要求你的類一定是writeablecompartor的子類，不想繼承writeablecompartor，至少實現writeable，這時你就必須在job上設定排序比較器job.setsortcmpartorclass(mycompartor.class);而mycompartor.class必須繼承rawcompartor的類或子類

分割槽（partition）會根據map輸出的結果分成幾個檔案為reduce準備，有幾個reducetask就分成幾個檔案，在job上設定分割槽器job.setpartitionerclass(mypartition.class)myrtition.class要繼承partitioner這個類

分組（group）分割槽時會呼叫分組器，把同一分割槽中的相同key的資料對應的value製作成乙個iterable，並且會在sort。在job上設定分組器。job.setgroupcompartorclass(mygroup.class)mygroup.class必須繼承rawcompartor的類跟子類

上面的結果儲存到本地檔案中，而不是hdfs上

上面只要有完成結果，reduce就開始複製上面的結果，通過http方式

reduce

輸入key時map輸出時的key value是分組器分的iterable

輸出 key value

輸出結果儲存在hdfs上而不是本地檔案中

大資料面試題（持續更新）

TCP IP面試題（持續更新）

幾個面試題持續更新

kafka面試題持續更新

大資料面試題（持續更新）

TCP IP面試題（持續更新）

幾個面試題 持續更新

kafka面試題 持續更新

相關推薦

幾個面試題持續更新

kafka面試題持續更新