MapReduce資料流（一）

在

作業由那些基本元件組成，從高層來看，所有的元件在一起工作時如下圖所示：

圖4.4高層mapreduce工作流水線

近距離觀察

圖4.5細節化的hadoop mapreduce資料流

圖4.5展示了流線水中的更多機制。雖然只有2個節點，但相同的流水線可以複製到跨越大量節點的系統上。下去的幾個段落會詳細講述mapreduce程式的各個階段。

輸入檔案：檔案是mapreduce任務的資料的初始儲存地。正常情況下，輸入檔案一般是存在hdfs裡。這些檔案的格式可以是任意的；我們可以使用基於行的日誌檔案，也可以使用二進位制格式，多行輸入記錄或其它一些格式。這些檔案會很大—數十g或更大。

輸入格式：inputformat類定義了如何分割和讀取輸入檔案，它提供有下面的幾個功能：

hadoop自帶了好幾個輸入格式。其中有乙個抽象類叫fileinputformat，所有操作檔案的inputformat類都是從它那裡繼承功能和屬性。當開啟hadoop作業時，fileinputformat會得到乙個路徑引數，這個路徑內包含了所需要處理的檔案，fileinputformat會讀取這個資料夾內的所有檔案（譯註：預設不包括子資料夾內的），然後它會把這些檔案拆分成乙個或多個的inputsplit。你可以通過jobconf物件的setinputformat()方法來設定應用到你的作業輸入檔案上的輸入格式。下表給出了一些標準的輸入格式：

輸入格式描述

鍵值textinputformat

預設格式，讀取檔案的行

行的位元組偏移量

行的內容

keyvalueinputformat

把行解析為鍵值對

第乙個tab字元前的所有字元

行剩下的內容

sequencefileinputformat

hadoop定義的高效能二進位制格式

使用者自定義

表4.1mapreduce提供的輸入格式

MapReduce資料流（一）

MapReduce資料流（二）

TCP互動資料流成塊資料流

資料流重定向一

MapReduce資料流（一）

MapReduce資料流（二）

TCP互動資料流 成塊資料流

資料流重定向 一

相關推薦

TCP互動資料流成塊資料流

資料流重定向一