分布式平行計算MapReduce

作業要求來自：

1.用自己的話闡明hadoop平台上hdfs和mapreduce的功能、工作原理和工作過程。

hdfs（hadoop distributed file system，hadoop分布式檔案系統），它是乙個高度容錯性的系統，適合部署在廉價的機器上。hdfs能提供高吞吐量的資料訪問，適合那些有著超大資料集（large data set）的應用程式。

易於擴充套件的分布式檔案系統

執行在大量普通廉價機器上，提供容錯機制

為大量使用者提供效能不錯的檔案訪問服務

mapreduce是並行處理框架，實現任務分解和排程。

其實原理說通俗一點就是分而治之的思想，將乙個大任務分解成多個小任務(map)，小任務執行完了之後，合併計算結果(reduce)。

也就是說，jobtracker拿到job之後，會把job分成很多個maptask和reducetask，交給他們執行。 maptask、reducetask函式的輸入、輸出都是的形式。hdfs儲存的輸入資料經過解析後，以鍵值對的形式，輸入到mapreduce()函式中進行處理，輸出一系列鍵值對作為中間結果，在reduce階段，對擁有同樣key值的中間資料進行合併形成最後結果。

2.hdfs上執行mapreduce

1）檢視是否已經安裝python：

1）準備文字檔案，放在本地/home/hadoop/wc

2）編寫map函式和reduce函式，在本地執行測試通過

3）啟動hadoop：hdfs, jobtracker, tasktracker

4）把文字檔案上傳到hdfs檔案系統上 user/hadoop/input

5）streaming的jar檔案的路徑寫入環境變數，讓環境變數生效

6）source run.sh來執行mapreduce

分布式平行計算MapReduce

分布式平行計算MapReduce

平行計算與分布式計算

平行計算與分布式計算的區別

分布式平行計算MapReduce

分布式平行計算MapReduce

平行計算與分布式計算

平行計算與分布式計算的區別

相關推薦