大資料流式計算 storm 基礎

一、目標

二、storm是什麼？

開源的、分布式、流式計算系統

三、分布式起源

四、批量計算與流式計算的對比

流式計算+批量計算的api：推特的summing bird、谷歌的clouddataflow，介面均開源。

五、storm元件

主從結構：簡單、高效，但主節點存在單點問題

對稱結構：複雜、效率較低，但無單點問題，更加可靠

六、storm作業提交流程

1.使用者編寫storm topolgy

2.使用client提交topology給nimbus

3.nimbus指派tast給supervisor

4.supervisor為task啟動worker

5.worker執行task

作業=topology=拓撲

七、併發機制

八、grouping分組方式

九、資料可靠性

分布式計算經常需要保證任意的worker掛掉之後，資料依然能夠正確的處理。

故障處理：

nimbus故障，換台機器重啟即可

superior掛掉，遷移其上worker即可

worker掛掉，遷移走資料能正確處理嗎？

spout資料保障：

如何保證資料正確的恢復？

如何保證資料不被重複計算？參考

Storm流式計算

下面以水廠加工的例子進行講解。人們要想喝到自來水。1 是不是需要水幫浦在水源地進行抽水 2 將抽到的水放到蓄水池裡作進一步的處理。第乙個蓄水池的實現的功能就是做沉澱。第二個蓄水池的功能就是過濾。第三個蓄水池的功能就是消毒。之後產生蓄水。3 要想上面的過程完美的進行，是不是需要乙個中控室，來告訴這些水...

大資料流式計算容錯方案演進之路

對於7 24小時不間斷執行的流程式來說，要保證fault tolerant是很難的，這不像是離線任務，如果失敗了只需要清空已有結果，重新跑一次就可以了。對於流任務，如果要保證能夠重新處理已處理過的資料，就要把資料儲存下來而這就面臨著幾個問題比如一是儲存多久的資料？二是重複計算的資料應該怎麼處理，...

流式計算storm介紹

流式計算是什麼流式計算資料實時產生資料實時傳輸資料實時計算實時展示代表技術 flume實時獲取資料 kafka metaq實時資料儲存 storm jstorm實時資料計算 redis實時結果快取持久化儲存 mysql 一句話總結將源源不斷產生的資料實時收集並實時計算，盡可能快的得到...

大資料流式計算 storm 基礎

Storm流式計算

大資料流式計算容錯方案演進之路

流式計算storm介紹

相關推薦