mapreduce是乙個計算框架,可分為5個階段split-------map------sort(洗牌)------reduce-----------資料輸出1,把需要分析的資料切割成片段,每個資料片段不能超過乙個block塊2,map任務階段,把切割好的資料片段讀進來進行分析,有多少個片段就有多少任務,平行進行3,洗牌階段,把map輸出的資料進行排序,分組,分割槽等,不改變資料結構4,reduce階段,自己寫處理**,預設啟動乙個5,輸出階段,決定reduce執行結果放哪,預設輸出到hdfs某個節點
配置yarn環境(/hadoop-2.5.2/etc/hadoop/):mapred-site.xml:複製模版建立 mapreduce.framework.name yarn
yarn-site.xml: yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.ha.enabled trueyarn.resourcemanager.cluster-id cluster1 yarn.resourcemanager.ha.rm-ids rm1,rm2yarn.resourcemanager.hostname.rm1 //定義resourcemanager伺服器 node1 //自動定義datanode為nodemanager yarn.resourcemanager.hostname.rm2 //定義resourcemanager伺服器 node2 yarn.resourcemanager.zk-address node2:4180,node3:4180,node4:4180 //注意zookeeper的埠號
修改完成,scp到其他幾個伺服器/hadoop-2.5.2/sbin下start-yarn.sh 預設啟動所有resourcemanager和datamanager節點,當前啟動的伺服器為resourcemanager./yarn-daemon.sh start resourcemanager 單獨啟動resourcemanager節點
http://node1:8088/ 訪問啟動./start-all 需要先啟動zookeeper。
hadoop map reduce 階段筆記
shuffle and sort mr 框架保證 每個 reducer 的輸入都是按照 key 鍵排過序的。shuffle 將map輸出結果送到reducer和排序的功能。1 map 每個map task將結果輸出到環形記憶體緩衝區,當到達一定閾值,則啟動乙個後台程序將快取中的資料 1 按照 red...
Hadoop MapReduce 效能優化
我們時常談論說到mapreduce時,我們都會說它是離線計算框架,磁碟io開銷大,job執行比較慢等等。這一篇部落格,南國系統回顧下mr程式執行慢的原因,以及如何優化mr程式。我們都知道mapreduce是離線計算框架,不同於spark記憶體計算框架模型。乙個標準的mr程式由map方法和reduce...
九 hadoop mapreduce分割槽
一 什麼時候分割槽?1 分割槽的實現 通過繼承partitioner類,實現getpartition方法。public int getpartition key key,value value,int reducetasknumber map結束後得到的每個key value都呼叫該方法,並把key...