[author]: kwu
分析mapreduce與storm的異同
1、mapreduce與storm處理資料的不同:
mapreduce 處理大資料、批處理,資料是相對不變的。
storm:流資料、實時處理,流資料在實時變化。
對流資料進行並進處理
1) 對於單機來說,使用多程序,多執行緒。
2) 多機同時多程序、多執行緒的資料處理(分布式)
2、mapreduce 與storm都是分階段
1)map、reduce
2)storm處理的階段 : spout、bolt
3)mr執行是會結束的,storm是永不停的相當於tomcat的服務。
4)單位時間內處理的資料量,mr大於storm
5) stream 流時計算。需要實時處理的資料,**的資料,電商**的實時資料,推薦,航班。
6)需要看每個月的結果,用mr來處理
3、tuple是storm資料處理的基本單位
實現上相當於mr的kv鍵值對
4、spout是storm對外的介面
spout是storm資料輸入的**進入了storm處理範圍之內
之後的資料交給,bolt階段處理。
spout --> bolt (處理的單元為 tuple)
通過 oo 封裝成 topology
型別mr中的job的概念。
5、相關配置檔案
mapreduce: mapred-site.xml
storm: storm.yaml
配置項對大小寫及空格敏感
MapReduce原理分析
底層儲存 分布式儲存,將龐大的任務進行分散到各個節點上,每個節點負責一小部分,處理起來更加方便。hdfs底層依賴 方便計算衍生出各種計算的東西 到大資料發展到現在的技術的生態圈。mapreduce是hadoop的核心元件之一,hadoop要實現分布式需要包括兩部分,一部分是分布式檔案系統hdfs,一...
mapreduce的工作原理分析
分布式計算的思想 合久必分,分久必合 哈哈 map reducce input 輸入 output 輸出 map端的含義 注意 假設hdfs的block大小為64m,採用textinputformat,現有乙個目錄,下面兩個檔案 大小分為1m和120m,mapreduce處理這個目錄下的資料時,預設...
MapReduce原始碼分析心得
分布式計算追求 沒有計算發生。支撐了計算向資料移動,和計算的並行度。做的最主要的是 儲存與計算解耦,就是對所要進行切片的資料進行split切片,split map並行度 split預設是與block塊數量一致,目的是為了計算向資料移動,幾個block塊分布在幾個地方,就起幾個map,這樣就不需要讓大...