批處理 : 一批資料一起,走一波
例如 : mr
實時處理 : 不停走,來乙個資料,走一波
例如 :storm
storm 是個實時的、分布式以及具備高容錯的計算系統
storm 程序常駐記憶體
storm 資料不經過磁碟,在記憶體中處理
nimbus : 主節點程序,老闆
supervisor : 分節點守護程序,分店店長
worker : 工作程序 ,工人
dag ( topology ) :有向無環圖
spout : 起點
bolt : 每個資料處理節點 ( 為了保證實時性,每個 bolt 的邏輯不宜太複雜 )
zmq( twitter早期產品 ,已經不用 )
zeromq 開源的訊息傳遞框架,並不是乙個messagequeue
netty ( 正在使用 )
netty是基於nio的網路框架,更加高效。(之所以storm 0.9版本之後使用netty,是因為zmq的license和storm的license不相容。)
異常處理
訊息可靠性保障機制 ( ack :訊息確認機制 )
stormui 圖形化監控介面
客戶端提交資料進行結算,並不會等待資料計算結果
例:etl(資料清洗)extracted transform load
例:計算pv、uv、訪問熱點 以及 某些資料的聚合、加和、平均等
客戶端提交資料之後,計算完成結果儲存到redis、hbase、mysql或者其他mq當中,
客戶端並不關心最終結果是多少。
客戶端提交資料請求之後,立刻取得計算結果並返回給客戶端
storm : 實時處理
spark : 微批處理
mr : 批處理 框架
storm
sparkstreaming
mapreduce
處理資料方式
流式處理
微批處理
批處理耗費時間
毫秒級秒級
分鐘級特徵
專門做實時計算,常駐記憶體
可以很好的與別的元件結合
mr 模型,反覆啟停
1 Storm集群安裝
export path path storm home bin zookeeper安裝見部落格中關於zookeeper內容 mkdir status storm.zookeeper.servers ip101 ip102 ip103 nimbus.host ip101 supervisor.slot...
1 Storm集群安裝
export path path storm home bin zookeeper安裝見部落格中關於zookeeper內容 mkdir status storm.zookeeper.servers ip101 ip102 ip103 nimbus.host ip101 supervisor.slot...
Storm 1 介紹Storm的基本概念
以分布式併發的方式處理和建立的無限的元組序列。在申明每個流的時候,會給它乙個id識別符號。outputfieldsdeclarerspouts是乙個拓撲裡流的源頭。也就是說,流的起點是spouts。spouts從外部讀入元組資料並將其放入到拓撲中。寫spouts時必須要實現的介面。拓撲中所有的資料處...