storm擅長於動態處理大量實時生產的小資料塊,概念上是將小資料量的資料源源不斷傳給過程;
spark擅長對現有的資料全集做處理,概念是將過程傳給大資料量的資料。
二者設計思路相反。storm側重於處理的實時性,spark側重處理龐大資料(類似於hadoop的mr)。
spark流模組(spark streaming)與storm類似,但有區別:
1.storm純實時,來一條資料,處理一條資料;sparkstreaming準實時,對乙個時間段內的資料收集起來,作為乙個rdd,再做處理。
2.storm響應時間毫秒級;spark streaming響應時間秒級
3.storm可以動態調整並行度;sparkstreaming不行
storm應用場景:
1、對於需要純實時,不能忍受1秒以上延遲的場景
2、要求可靠的事務機制和可靠性機制,即資料的處理完全精準
3、如果還需要針對高峰低峰時間段,動態調整實時計算程式的並行度,以最大限度利用集群資源
spark streaming應用場景:
1、spark streaming可以和spark core、spark sql無縫整合,如果乙個專案除了實時計算之外,還包括了離線批處理、互動式查詢等業務功能,考慮使用spark streaming。
spark與storm的對比
對比點 storm spark streaming 實時計算模型 純實時,來一條資料,處理一條資料 準實時,對乙個時間段內的資料收集起來,作為乙個rdd,再處理 實時計算延遲度 毫秒級 秒級 吞吐量 低 高 事務機制 支援完善 支援,但不夠完善 健壯性 容錯性 zookeeper,acker,非常強...
spark與storm的對比
對比點 storm spark streaming 實時計算模型 純實時,來一條資料,處理一條資料 準實時,對乙個時間段內的資料收集起來,作為乙個rdd,再處理 實時計算延遲度 毫秒級 秒級 吞吐量 低 高事務機制 支援完善 支援,但不夠完善 健壯性 容錯性 zookeeper,acker,非常強 ...
spark與storm的對比
對比點storm spark streaming 實時計算模型 純實時,來一條資料,處理一條資料 準實時,對乙個時間段內的資料收集起來,作為乙個rdd,再處理 實時計算延遲度 毫秒級秒級 吞吐量低 高事務機制 支援完善 支援,但不夠完善 健壯性 容錯性 zookeeper,acker,非常強 che...