storm是twitter的開源流計算解決方案,因為對hadoop的mapreduce的高延遲缺點而出現。
kafka 分布式訊息系統
redis 快取資料庫
storm 流式計算
1.storm 的基本概念
2.storm 的應用場景
3.storm 和hadoop的對比
4.storm 集群的安裝的linux環境準備
5.zookeeper集群搭建
6.storm 集群搭建
7.storm 配置檔案配置項講解
8.集群搭建常見問題解決
9.storm 常用元件和程式設計 api:topology、 spout、bolt
10.storm分組策略(stream groupings)
11.使用strom開發乙個wordcount 例子
12.storm程式本地模式debug、storm程式遠端debug
13.storm事物處理
14.storm訊息可靠性及容錯原理
15.storm與 kafka整合
16.storm trident 概念
17.trident state 原理
18.trident 開發例項
19.storm drpc(分布式遠端呼叫)介紹
20.storm drpc實戰講解
21.storm on yarn 原理與配置
流式計算框架
s4s4會將資料裡的每一條記錄包裝成event事件,每個事件是乙個kv對,同時有eventtype來標示這個事件的型別。pe是s4中的基本運算單元。每個pe只負責處理自己所關心的eventtype,並且只處理自己所對應的key值的event。pe處理後可能輸出乙個或多個event。就像hadoop上...
流式計算簡介
日常工作中,我們一般會先把資料儲存在一張表中,然後對這張表的資料進行加工 分析。那這裡是先儲存在表中,那就會涉及到時效性這個概念。如果我們處理以年,月為單位的級別的資料處理,進行統計分析,個性化推薦,那麼資料的的最新日期離當前有幾個甚至上月都沒有問題。但是如果我們處理的是以天為級別,或者以小時甚至更...
Storm流式計算
下面以水廠加工的例子進行講解。人們要想喝到自來水。1 是不是需要水幫浦在水源地進行抽水 2 將抽到的水放到蓄水池裡作進一步的處理。第乙個蓄水池的實現的功能就是做沉澱。第二個蓄水池的功能就是過濾。第三個蓄水池的功能就是消毒。之後產生蓄水。3 要想上面的過程完美的進行,是不是需要乙個中控室,來告訴這些水...