作業要求來自:
1.用自己的話闡明hadoop平台上hdfs和mapreduce的功能、工作原理和工作過程。
hdfs(hadoop distributed file system,hadoop分布式檔案系統),它是乙個高度容錯性的系統,適合部署在廉價的機器上。hdfs能提供高吞吐量的資料訪問,適合那些有著超大資料集(large data set)的應用程式。
易於擴充套件的分布式檔案系統
執行在大量普通廉價機器上,提供容錯機制
為大量使用者提供效能不錯的檔案訪問服務
mapreduce是並行處理框架,實現任務分解和排程。
其實原理說通俗一點就是分而治之的思想,將乙個大任務分解成多個小任務(map),小任務執行完了之後,合併計算結果(reduce)。
也就是說,jobtracker拿到job之後,會把job分成很多個maptask和reducetask,交給他們執行。 maptask、reducetask函式的輸入、輸出都是的形式。hdfs儲存的輸入資料經過解析後,以鍵值對的形式,輸入到mapreduce()函式中進行處理,輸出一系列鍵值對作為中間結果,在reduce階段,對擁有同樣key值的中間資料進行合併形成最後結果。
2.hdfs上執行mapreduce
1)檢視是否已經安裝python:
1)準備文字檔案,放在本地/home/hadoop/wc
2)編寫map函式和reduce函式,在本地執行測試通過
3)啟動hadoop:hdfs, jobtracker, tasktracker
4)把文字檔案上傳到hdfs檔案系統上 user/hadoop/input
5)streaming的jar檔案的路徑寫入環境變數,讓環境變數生效
6)source run.sh來執行mapreduce
分布式平行計算MapReduce
1.用自己的話闡明hadoop平台上hdfs和mapreduce的功能 工作原理和工作過程。hdfs 1 第一次啟動 namenode 格式化後,建立 fsimage 和 edits 檔案。如果不是第一次啟動,直接載入編輯日誌和映象檔案到記憶體。2 客戶端對元資料進行增刪改的請求。3 namenod...
平行計算與分布式計算
主要內容來自維基百科 分布式系統是聯網計算機組,其工作目標相同。術語 併發計算 平行計算 和 分布式計算 有很多重疊,它們之間沒有明顯的區別。15 同一系統可以表徵為 並行 和 分布式 典型分布式系統中的處理器並行執行。16 平行計算可以被看作分布式計算的乙個特定的緊密耦合的形式,17 和分布式計算...
平行計算與分布式計算的區別
平行計算 空間復用多個處理器 intel多 指令優化集是針對乙個處理器,擴充套件處理額外的資料,屬於特殊的平行計算優化 多處理器系統,作業系統採用平行計算的排程方法,允許多個執行緒在多個處理器上同時執行。分布式處理系統 某種處理任務被分解到多個處理器上,系統為扁平結構,一般上層有乙個控制中心,下層有...