一、目標
二、storm是什麼?
開源的、分布式、流式計算系統
三、分布式起源
四、批量計算與流式計算的對比
流式計算+批量計算的api:推特的summing bird、谷歌的clouddataflow,介面均開源。
五、storm元件
主從結構:簡單、高效,但主節點存在單點問題
對稱結構:複雜、效率較低,但無單點問題,更加可靠
六、storm作業提交流程
1.使用者編寫storm topolgy
2.使用client提交topology給nimbus
3.nimbus指派tast給supervisor
4.supervisor為task啟動worker
5.worker執行task
作業=topology=拓撲
七、併發機制
八、grouping分組方式
九、資料可靠性
分布式計算經常需要保證任意的worker掛掉之後,資料依然能夠正確的處理。
故障處理:
nimbus故障,換台機器重啟即可
superior掛掉,遷移其上worker即可
worker掛掉,遷移走資料能正確處理嗎?
spout資料保障:
如何保證資料正確的恢復?
如何保證資料不被重複計算? 參考
Storm流式計算
下面以水廠加工的例子進行講解。人們要想喝到自來水。1 是不是需要水幫浦在水源地進行抽水 2 將抽到的水放到蓄水池裡作進一步的處理。第乙個蓄水池的實現的功能就是做沉澱。第二個蓄水池的功能就是過濾。第三個蓄水池的功能就是消毒。之後產生蓄水。3 要想上面的過程完美的進行,是不是需要乙個中控室,來告訴這些水...
大資料流式計算容錯方案演進之路
對於7 24小時不間斷執行的流程式來說,要保證fault tolerant是很難的,這不像是離線任務,如果失敗了只需要清空已有結果,重新跑一次就可以了。對於流任務,如果要保證能夠重新處理已處理過的資料,就要把資料儲存下來 而這就面臨著幾個問題 比如一是儲存多久的資料?二是重複計算的資料應該怎麼處理,...
流式計算storm介紹
流式計算是什麼 流式計算 資料實時產生 資料實時傳輸 資料實時計算 實時展示 代表技術 flume實時獲取資料 kafka metaq實時資料儲存 storm jstorm實時資料計算 redis實時結果快取 持久化儲存 mysql 一句話總結 將源源不斷產生的資料實時收集並實時計算,盡可能快的得到...