核心概念
topologies 拓撲,將整個流程串起來
計算拓撲,由spout和bolt組成
類似於mr作業
mr最終要完成,topology會一直執行除非自己殺死
對應的資源
topologybuilder
running topologies on a production cluster
local mode
streams 流,資料流,水流
訊息流,抽象概念,沒有邊界的tuple構成
乙個stream是由一系列有序的tuple組成。
tuple包含int,long,shorts,byte,string,double floats and byte arrays
對應資源
tuple
outputfieldsdeclarer
serialization
spouts 產生資料/水流的東西
訊息流的源頭,topology的訊息生產者
可靠和不可靠
可以傳送多個stream
最主要的方法nexttuple,傳送新的tuple到拓撲裡面或者簡單的返回什麼都不做
ack 和fail方法 保證資料是否正常處理。自動呼叫
僅僅會在可靠的spout中呼叫
對應的資源
irichspout
如何保證訊息被處理,ack和fail
bolts 處理資料/水流的東西
訊息處理單元,可以做過濾,聚合,查詢/寫資料庫的操作
主要方法
execute 執行
在bolt中啟動多執行緒
對應的資源
irichbolt
ibasicbolt
outputcollector
tuple 資料/水
訊息/資料 傳遞的基本單元
stream grouping
reliability 可靠性
task
workers
每乙個worker程序是乙個物理jvm程序,執行多有拓撲的子集
核心概念講解-地鐵執行模型
地鐵由多個車廂構成;
車廂中有很多乘客
每個站點有不少的人上車和下車
地鐵有始發站,經停站,終點站;
地鐵停靠站通過地鐵排程中心進行控制
storm
流理解成地鐵
tuple資料----人
在bolt中處理業務邏輯,其實就是針對tuple進行處理
流程圖
一 Storm簡介與核心概念
1 storm簡介 storm是乙個開源的 分布式實時計算系統。能夠實現高頻資料和大規模資料的實時處理。2 核心概念 topology 拓撲,將整個流程串起來 計算拓撲,由spout和bolt組成的 stream 流,資料流,水流 訊息流,抽象概念,沒有邊界的tuple構成,乙個stream由多個t...
Storm篇 Storm基礎概念
一 前述 storm是個實時的 分布式以及具備高容錯的計算系統,storm程序常駐記憶體,storm資料不經過磁碟,在記憶體中處理。二 相關概念 1.非同步 流式處理 非同步 客戶端提交資料進行結算,並不會等待資料計算結果。2.同步 實時請求應答服務 同步 客戶端提交資料請求之後,立刻取得計算結果並...
storm核心元件
nimbus 負責資源分配和任務排程。supervisor 負責接受nimbus分配的任務,啟動和停止屬於自己管理的worker程序。通過配置檔案設定當前 supervisor 上啟動多少個 worker worker 執行具體處理元件邏輯的程序。worker執行的任務型別只有兩種,一種是spout...