早期和當前的"流式計算"系統分別稱為"連續查詢處理類"和"可擴充套件資料流平台類"計算系統。
流式計算系統的特點:
1)低延遲 2)極佳的系統容錯性 3)極強的系統擴充套件能力 4)靈活強大的應用邏輯表達能力
目前典型的流式計算系統:
s4,storm,millwheel,samza,d-stream,hadoop online,mupd8等。
其中storm和millwheel是各方面比較突出的。
流式計算系統架構:
常見的流式計算系統架構分為兩種:主從模式和p2p模式。
主從模式storm、millwheel和samza
p2p模式s4
samza是利用訊息系統kafka和hadoop2.0的資源管理系統yarn綜合而成的,架構比較獨特,但本質上遵循主從架構。
送達保證
三種可能:至少送達一次(at_least once delivery),至多送達一次(at_most once delivery),恰好送達一次(exeact-once delivery)。
storm在系統中提供"恰好送達一次"語義是通過送達保證機制和事務拓撲聯合來完成的。
samza依靠kafka的訊息持久化聯合broker快取機制,保證"恰好送達一次"語義。
《大資料時代》讀書筆記
大資料時代 英國人viktor mayer schonberger的著作。最重要的一點是介紹了一種思維模式的變化。主要觀點 大資料是指獲取全部資料樣本,分析全部資料,而不是只做抽樣分析。大資料分析更關注相關性分析,不能做到因果分析 當然會有助於找到原因 不是去找到精確答案,而是要得到事物的聯絡。大資...
實戰大資料(讀書筆記)
1 將電子券傳送到手機上,使用者可以直接拿著手機去消費 2 利用手機上的位置定位功能,公司推出 簽到 服務,可以直接把手機使用者帶到企業活動地點 1 移動終端可以隨時隨地為消費者收集 分析資料,讓消費者與身邊的人更好地互動,即根據位置組織起 2 根據旅行軌跡,組成同類興趣的登山隊 驢友 團等 比如猜...
大資料讀書筆記 1
1.資料分片與路由 抽象模型為兩級對映關係,第一級對映是key partition對映,第二級對映是partition machine對映。資料分片有雜湊分片和範圍分片 雜湊分片只支援點查詢,如cassandra,voltmort,membase 範圍分片支援範圍查詢,google的bigtable...