分析MapReduce與Storm的異同

2021-07-05 19:52:16 字數 794 閱讀 5630

[author]: kwu 

分析mapreduce與storm的異同

1、mapreduce與storm處理資料的不同:

mapreduce  處理大資料、批處理,資料是相對不變的。

storm:流資料、實時處理,流資料在實時變化。

對流資料進行並進處理

1) 對於單機來說,使用多程序,多執行緒。

2) 多機同時多程序、多執行緒的資料處理(分布式)

2、mapreduce 與storm都是分階段

1)map、reduce

2)storm處理的階段 :  spout、bolt 

3)mr執行是會結束的,storm是永不停的相當於tomcat的服務。

4)單位時間內處理的資料量,mr大於storm

5) stream 流時計算。需要實時處理的資料,**的資料,電商**的實時資料,推薦,航班。

6)需要看每個月的結果,用mr來處理

3、tuple是storm資料處理的基本單位

實現上相當於mr的kv鍵值對

4、spout是storm對外的介面

spout是storm資料輸入的**進入了storm處理範圍之內

之後的資料交給,bolt階段處理。

spout --> bolt (處理的單元為 tuple)

通過 oo 封裝成 topology

型別mr中的job的概念。

5、相關配置檔案 

mapreduce: mapred-site.xml

storm: storm.yaml

配置項對大小寫及空格敏感

MapReduce原理分析

底層儲存 分布式儲存,將龐大的任務進行分散到各個節點上,每個節點負責一小部分,處理起來更加方便。hdfs底層依賴 方便計算衍生出各種計算的東西 到大資料發展到現在的技術的生態圈。mapreduce是hadoop的核心元件之一,hadoop要實現分布式需要包括兩部分,一部分是分布式檔案系統hdfs,一...

mapreduce的工作原理分析

分布式計算的思想 合久必分,分久必合 哈哈 map reducce input 輸入 output 輸出 map端的含義 注意 假設hdfs的block大小為64m,採用textinputformat,現有乙個目錄,下面兩個檔案 大小分為1m和120m,mapreduce處理這個目錄下的資料時,預設...

MapReduce原始碼分析心得

分布式計算追求 沒有計算發生。支撐了計算向資料移動,和計算的並行度。做的最主要的是 儲存與計算解耦,就是對所要進行切片的資料進行split切片,split map並行度 split預設是與block塊數量一致,目的是為了計算向資料移動,幾個block塊分布在幾個地方,就起幾個map,這樣就不需要讓大...