Hadoop學習日記（十三） Shuffle機制

2019.07.03

學習過程主要參考段海濤大資料p35

map任務與資料儲存的資料中間有一層「切片(split)」的概念。

對於小檔案處理，可使得乙個split對應多個實際的資料塊；當檔案較大被分成多個128m的塊時，乙個split可對應乙個塊。

1.每個map有乙個環形記憶體緩衝區，用於儲存任務的輸出。預設大小100mb（io.sort.mb屬性），一旦達到閥值0.8（io.sort.spill.percent）,乙個後台執行緒把內容寫到(spill)磁碟的指定目錄（mapred.local.dir）下的新建的乙個溢位寫檔案。

2.寫磁碟前，要partition,sort。如果有combiner，combine排序後資料。

3.等最後記錄寫完，合併全部溢位寫檔案為乙個分割槽且排序的檔案。

1.reducer通過http方式得到輸出檔案的分割槽。

2.tasktracker為分割槽檔案執行reduce任務。複製階段把map輸出複製到reducer的記憶體或磁碟。乙個map任務完成，reduce就開始複製輸出。

3.排序階段合併map輸出。然後走reduce階段。

關於shuffle在具體生產中的調優可考慮調整記憶體緩衝區大小等。

在之前的內容裡，沒有提到的就是inputformat和outputformat。

map接收的資料來自inputformat，reduce的輸出由outputformat寫到指定地點（預設是到hdfs上儲存）。

如果不做設定，inputformat（抽象類）預設是fileinputformat（實現了inputformat）的子類textinpuformat（多種不同檔案型別，還有keyvaluetextinputformat等等），讀取文字檔案。除了fileinputformat，還有dbinputformat（資料庫相關）等等。

當然，outputformat也有很多態別。inputformat和outputformat應該根據應用需求選擇具體的實現類。

這一小節主要參考段海濤大資料p37

Hadoop學習日記（十三） Shuffle機制

Hadoop學習日記（一）

Hadoop學習日記（九） Yarn框架

舔狗日記（十三）

Hadoop學習日記（十三） Shuffle機制

Hadoop學習日記（一）

Hadoop學習日記（九） Yarn框架

舔狗日記（十三）

相關推薦