副本存放策略

2021-10-01 19:25:42 字數 719 閱讀 4000

副本的存放策略:

1、資料的安全

2、資料塊的負載均衡

這種方案不是一種最完美的方案

兩個問題:

1、概念:

給乙個資料塊的多個副本選取合適的儲存節點,來保障資料塊的安全

是說將乙個資料塊的三個副本放在三個不同的節點,而不是將乙個檔案的多個不同的資料塊放在不同的節點。

2、具體實現:

不同機架

不同機房

不同地域

不同的地域已經是不同的資料中心了

備份:保證資料安全

北京的資料中心和上海的資料中心

實際情況中:儲存的資料是一模一樣的

熱備/冷備

熱備,實時備份

冷備,隔一段時間備份

災備(火災),多個地域建立資料中心

採取冗餘

資料安全,盡量分散

處理效率,越近越好

權衡負載均衡

1)節點均衡

2)機架均衡

3)磁碟均衡

4、負載均衡

start-balancer.sh -threshold 5

當前這個操作的執行在什麼時候結束

當集群中的任意兩個節點的磁碟使用佔比不超過5%的時候

sbin/start-balancer.sh -t 10%

機器容量最高的那個值和最低的那個值的差距不能超過10%

HDFS副本存放策略

第乙個block副本放在和client所在的node裡 如果是集群外提交,則隨機挑選一台磁碟不太慢 cpu不太忙的節點上 第二個副本放置在與第乙個節點不同的機架中的node中 隨機選擇 第三個副本和第二個在同乙個機架,隨機放在不同的node中。如果還有更多的副本就隨機放在集群的node裡。流水線複製...

HDFS副本存放策略

資料分塊儲存和副本的存放,是保證可靠性和高效能的關鍵 將每個檔案的資料進行分塊儲存,每乙個資料塊又儲存有多個副本。這些資料塊副本分布在不同的機器節點上 設定備份數 方法一 配置檔案hdfs site.xml dfs.replication 3方法二 通過命令修改備份數 bin hadoop fs s...

Hadoop副本存放策略

副本存放策略 基於機架感知當複製因子為3時,hdfs的放置策略是在編寫器位於datanode上時將乙個副本放在本地計算機上,否則放在隨機datanode上,另乙個副本放在另乙個 遠端 機架上的節點上,最後乙個在同乙個遠端機架的不同節點上。此策略可以減少機架間寫入流量,從而提高寫入效能。機架故障的可能...