HDFS副本存放策略

2021-07-27 04:50:02 字數 706 閱讀 2425

第乙個block副本放在和client所在的node裡(如果是集群外提交,則隨機挑選一台磁碟不太慢、cpu不太忙的節點上)。

第二個副本放置在與第乙個節點不同的機架中的node中(隨機選擇)。

第三個副本和第二個在同乙個機架,隨機放在不同的node中。

如果還有更多的副本就隨機放在集群的node裡。

流水線複製

當客戶端向 hdfs 檔案寫入資料的時候,一開始是寫到本地臨時檔案中。

假設該檔案的副本係數設定為 3 ,當本地臨時檔案累積到乙個資料塊的大小時,客戶端會從 namenode 獲取乙個 datanode 列表用於存放副本。然後客戶端開始向第乙個datanode傳輸資料,第乙個 datanode 一小部分一小部分 (4 kb) 地接收資料,將每一部分寫入本地倉庫,並同時傳輸該部分到列表中第二個 datanode 節點。第二個 datanode 也是這樣,一小部分一小部分地接收資料,寫入本地倉庫,並同時傳給第三個 datanode 。最後,第三個 datanode 接收資料並儲存在本地。因此,datanode 能流水線式地從前乙個節點接收資料,並同時**給下乙個節點,資料以流水線的方式從前乙個datanode複製到下乙個datanode。

注: 修改副本數 修改hdfs-site.xml中dfs.replication配置項

HDFS副本存放策略

資料分塊儲存和副本的存放,是保證可靠性和高效能的關鍵 將每個檔案的資料進行分塊儲存,每乙個資料塊又儲存有多個副本。這些資料塊副本分布在不同的機器節點上 設定備份數 方法一 配置檔案hdfs site.xml dfs.replication 3方法二 通過命令修改備份數 bin hadoop fs s...

HDFS資料副本存放策略

1.副本放置策略 第一副本 放置在上傳檔案的datanode上 如果是集群外提交,則隨機挑選一台磁碟不太慢 cpu不太忙的節點上 第二副本 放置在於第乙個副本不同的機架的節點上 第三副本 與第二個副本相同機架的不同節點上 hdfs採用一種稱為機架感知 rack aware 的策略來改進資料的可靠性 ...

副本存放策略

副本的存放策略 1 資料的安全 2 資料塊的負載均衡 這種方案不是一種最完美的方案 兩個問題 1 概念 給乙個資料塊的多個副本選取合適的儲存節點,來保障資料塊的安全 是說將乙個資料塊的三個副本放在三個不同的節點,而不是將乙個檔案的多個不同的資料塊放在不同的節點。2 具體實現 不同機架 不同機房 不同...