Storm與Hadoop的比較

2021-06-22 23:29:42 字數 694 閱讀 6164

對於一堆時刻在增長的資料,如果要統計,可以採用什麼方法呢?

1.等資料增長到一定程度的時候,跑乙個統計程式進行統計。適用於實時性要求不高的場景。

如將資料匯入到hdfs,再執行乙個map reduce job。

2.如果實時性要求高的,上面的方法就不行了。因此就帶來第二種方法。

在資料每次增長一筆的時候,就進行統計job,結果放到db或搜尋引擎的index中。

storm就是完成這種工作的。

hadoop與storm比較

處理過程:hadoop是分map階段到reduce階段,storm是由使用者定義處理流程,

流程中可以包含多個步驟,每個步驟可以是資料來源(spout)或處理邏輯(bolt)

是否結束:hadoop最後是要結束的,storm是沒有結束狀態,到最後一步時,就停在那,直到有新

資料進入時再從頭開始

處理速度:hadoop是以處理hdfs上大量資料為目的,速度慢,storm是只要處理新增的某一筆資料即可

可以做到很快。

適用場景:hadoop是在要處理一批資料時用的,不講究時效性,要處理就提交乙個job,storm是要處理

某一新增資料時用的,要講時效性

Hadoop版本比較

1.hadoop有幾個版本?2.cdh有幾種安裝方式?3.cdh在安裝認證方面做了什麼改變?cloudera的cdh和apache的hadoop的區別 目前而言,不收費的hadoop版本主要有三個 均是國外廠商 分別是 apache 最原始的版本,所有發行版均基於這個版本進行改進 cloudera版...

為什麼說Storm比Hadoop 快?

快 這個詞是不明確的,專業屬於點有兩個層面 1.時延 指資料從產生到運算產生結果的時間,題主的 快 應該主要指這個。2.吞吐,指系統單位時間處理的資料量。首先明確一點,在消耗資源相同的情況下,一般來說storm的延時低於mapreduce。但是吞吐也低於mapreduce。storm的網路直傳 記憶...

spark與storm的對比

對比點 storm spark streaming 實時計算模型 純實時,來一條資料,處理一條資料 準實時,對乙個時間段內的資料收集起來,作為乙個rdd,再處理 實時計算延遲度 毫秒級 秒級 吞吐量 低 高 事務機制 支援完善 支援,但不夠完善 健壯性 容錯性 zookeeper,acker,非常強...