Hadoop副本存放策略

2021-08-31 11:28:40 字數 597 閱讀 3216

副本存放策略:

基於機架感知當複製因子為3時,hdfs的放置策略是在編寫器位於datanode上時將乙個副本放在本地計算機上,否則放在隨機datanode上,另乙個副本放在另乙個(遠端)機架上的節點上,最後乙個在同乙個遠端機架的不同節點上。此策略可以減少機架間寫入流量,從而提高寫入效能。機架故障的可能性遠小於節點故障的可能性; 此策略不會影響資料可靠性和可用性保證。但是,它確實減少了讀取資料時使用的聚合網路頻寬,因為塊只放在兩個唯一的機架而不是三個。使用此策略時,檔案的副本不會均勻分布在機架上。三分之二的副本位於乙個機架上,另外三分之一均勻分布在剩餘的機架上。此策略可提高寫入效能,而不會影響資料可靠性或讀取效能。

如果複製因子大於3,則隨機確定第4個及以下副本的放置,同時保持每個機架的副本數量低於上限(基本上是(副本-1)/機架+ 2)。

由於namenode不允許datanode具有同一塊的多個副本,因此建立的最大副本數是此時datanode的總數。

我的總結:(簡而言之,副本數的數量要小於等於datanode的數量)。

來自apache官網。

副本存放策略

副本的存放策略 1 資料的安全 2 資料塊的負載均衡 這種方案不是一種最完美的方案 兩個問題 1 概念 給乙個資料塊的多個副本選取合適的儲存節點,來保障資料塊的安全 是說將乙個資料塊的三個副本放在三個不同的節點,而不是將乙個檔案的多個不同的資料塊放在不同的節點。2 具體實現 不同機架 不同機房 不同...

HDFS副本存放策略

第乙個block副本放在和client所在的node裡 如果是集群外提交,則隨機挑選一台磁碟不太慢 cpu不太忙的節點上 第二個副本放置在與第乙個節點不同的機架中的node中 隨機選擇 第三個副本和第二個在同乙個機架,隨機放在不同的node中。如果還有更多的副本就隨機放在集群的node裡。流水線複製...

HDFS副本存放策略

資料分塊儲存和副本的存放,是保證可靠性和高效能的關鍵 將每個檔案的資料進行分塊儲存,每乙個資料塊又儲存有多個副本。這些資料塊副本分布在不同的機器節點上 設定備份數 方法一 配置檔案hdfs site.xml dfs.replication 3方法二 通過命令修改備份數 bin hadoop fs s...