假設又三個node,三個primary shard 、6個replica shard,分別為
1: p0,r1,r2 2:r0,p1,r2-2 3:r0-2,r1-2,p2 第乙個node為master node
現在假設master node宕機。p0,r1,r2丟失
master node 宕機的一瞬間,p0這個primary shard就沒了,此時p0就不是active了,就不是所有的primary shard都是active了,就會導致cluster status = red。
容錯第一步:master選舉,自動選舉另乙個node作為新的master,承擔起master的責任。
容錯第二步:新的master,將丟失的primary shard 的某個replica shard 提公升為primary shard(在此處體現為:假設node2選舉為新的master,即r0被提公升為p0),此時cluster status會變為yellow,因為primary shard全為active了,但少了replica shard。
容錯第三步:重啟故障的node,new master,會將缺失的副本都copy乙份到該node上去,而且該node會使用之前已有的shard資料,只是同步一下宕機之後發生過的修改。cluster status變為green,因為primary shard 和replica shard都齊全了。
Spark Spark容錯機制
一般來說,分布式資料集的容錯性有兩種方式 資料檢查點和記錄資料的更新。面向大規模資料分析,資料檢查點操作成本很高,需要通過資料中心的網路連線在機器之間複製龐大的資料集,而網路頻寬往往比記憶體頻寬低得多,同時還需要消耗更多的儲存資源。因此,spark選擇記錄更新的方式。但是,如果更新粒度太細太多,那麼...
Spark容錯機制
一般來說,分布式資料集的容錯性有兩種方式 資料檢查點和記錄資料的更新。面向大規模資料分析,資料檢查點操作成本很高,需要通過資料中心的網路連線在機器之間複製龐大的資料集,而網路頻寬往往比記憶體頻寬低得多,同時還需要消耗更多的儲存資源。因此,spark選擇記錄更新的方式。但是,如果更新粒度太細太多,那麼...
Spark容錯機制
一般來說,分布式資料集的容錯性有兩種方式 資料檢查點和記錄資料的更新。面向大規模資料分析,資料檢查點操作成本很高,需要通過資料中心的網路連線在機器之間複製龐大的資料集,而網路頻寬往往比記憶體頻寬低得多,同時還需要消耗更多的儲存資源。因此,spark選擇記錄更新的方式。但是,如果更新粒度太細太多,那麼...