副本的存放策略:
1、資料的安全
2、資料塊的負載均衡
這種方案不是一種最完美的方案
兩個問題:
1、概念:
給乙個資料塊的多個副本選取合適的儲存節點,來保障資料塊的安全
是說將乙個資料塊的三個副本放在三個不同的節點,而不是將乙個檔案的多個不同的資料塊放在不同的節點。
2、具體實現:
不同機架
不同機房
不同地域
不同的地域已經是不同的資料中心了
備份:保證資料安全
北京的資料中心和上海的資料中心
實際情況中:儲存的資料是一模一樣的
熱備/冷備
熱備,實時備份
冷備,隔一段時間備份
災備(火災),多個地域建立資料中心
採取冗餘
資料安全,盡量分散
處理效率,越近越好
權衡負載均衡
1)節點均衡
2)機架均衡
3)磁碟均衡
4、負載均衡
start-balancer.sh -threshold 5
當前這個操作的執行在什麼時候結束
當集群中的任意兩個節點的磁碟使用佔比不超過5%的時候
sbin/start-balancer.sh -t 10%
機器容量最高的那個值和最低的那個值的差距不能超過10%
HDFS副本存放策略
第乙個block副本放在和client所在的node裡 如果是集群外提交,則隨機挑選一台磁碟不太慢 cpu不太忙的節點上 第二個副本放置在與第乙個節點不同的機架中的node中 隨機選擇 第三個副本和第二個在同乙個機架,隨機放在不同的node中。如果還有更多的副本就隨機放在集群的node裡。流水線複製...
HDFS副本存放策略
資料分塊儲存和副本的存放,是保證可靠性和高效能的關鍵 將每個檔案的資料進行分塊儲存,每乙個資料塊又儲存有多個副本。這些資料塊副本分布在不同的機器節點上 設定備份數 方法一 配置檔案hdfs site.xml dfs.replication 3方法二 通過命令修改備份數 bin hadoop fs s...
Hadoop副本存放策略
副本存放策略 基於機架感知當複製因子為3時,hdfs的放置策略是在編寫器位於datanode上時將乙個副本放在本地計算機上,否則放在隨機datanode上,另乙個副本放在另乙個 遠端 機架上的節點上,最後乙個在同乙個遠端機架的不同節點上。此策略可以減少機架間寫入流量,從而提高寫入效能。機架故障的可能...