大資料流式計算 storm 基礎

2021-08-16 12:09:24 字數 1057 閱讀 8831

一、目標

二、storm是什麼?

開源的、分布式、流式計算系統

三、分布式起源

四、批量計算與流式計算的對比

流式計算+批量計算的api:推特的summing bird、谷歌的clouddataflow,介面均開源。

五、storm元件

主從結構:簡單、高效,但主節點存在單點問題

對稱結構:複雜、效率較低,但無單點問題,更加可靠

六、storm作業提交流程

1.使用者編寫storm topolgy

2.使用client提交topology給nimbus

3.nimbus指派tast給supervisor

4.supervisor為task啟動worker

5.worker執行task

作業=topology=拓撲

七、併發機制

八、grouping分組方式

九、資料可靠性

分布式計算經常需要保證任意的worker掛掉之後,資料依然能夠正確的處理。

故障處理:

nimbus故障,換台機器重啟即可

superior掛掉,遷移其上worker即可

worker掛掉,遷移走資料能正確處理嗎?

spout資料保障:

如何保證資料正確的恢復?

如何保證資料不被重複計算? 參考

Storm流式計算

下面以水廠加工的例子進行講解。人們要想喝到自來水。1 是不是需要水幫浦在水源地進行抽水 2 將抽到的水放到蓄水池裡作進一步的處理。第乙個蓄水池的實現的功能就是做沉澱。第二個蓄水池的功能就是過濾。第三個蓄水池的功能就是消毒。之後產生蓄水。3 要想上面的過程完美的進行,是不是需要乙個中控室,來告訴這些水...

大資料流式計算容錯方案演進之路

對於7 24小時不間斷執行的流程式來說,要保證fault tolerant是很難的,這不像是離線任務,如果失敗了只需要清空已有結果,重新跑一次就可以了。對於流任務,如果要保證能夠重新處理已處理過的資料,就要把資料儲存下來 而這就面臨著幾個問題 比如一是儲存多久的資料?二是重複計算的資料應該怎麼處理,...

流式計算storm介紹

流式計算是什麼 流式計算 資料實時產生 資料實時傳輸 資料實時計算 實時展示 代表技術 flume實時獲取資料 kafka metaq實時資料儲存 storm jstorm實時資料計算 redis實時結果快取 持久化儲存 mysql 一句話總結 將源源不斷產生的資料實時收集並實時計算,盡可能快的得到...