HDFS網路拓撲概念及機架感知(副本節點擊擇)

2022-09-16 05:12:13 字數 999 閱讀 2565

網路拓撲概念

在本地網路中,兩個節點被稱為「彼此近鄰」是什麼意思?在海量資料處理中,其主要限制因素是節點之間資料的傳輸速率——頻寬很稀缺。這裡將兩個節點間的頻寬作為距離的衡量標準。

節點距離:兩個節點到達最近的共同祖先(如路由器)的距離總和。

例如,假設有資料中心d1機架r1中的節點n1。該節點可以表示為/d1/r1/n1。利用這種標記,這裡給出四種距離描述。

distance(/d1/r1/n1, /d1/r1/n1)=0(同一節點上的程序)

distance(/d1/r1/n1, /d1/r1/n2)=2(同一機架上的不同節點)

distance(/d1/r1/n1, /d1/r3/n2)=4(同一資料中心不同機架上的節點)

distance(/d1/r1/n1, /d2/r4/n2)=6(不同資料中心的節點)

機架感知(副本節點擊擇)

2)低版本hadoop副本節點擊擇

第乙個副本在client所處的節點上。如果客戶端在集群外,隨機選乙個。

第二個副本和第乙個副本位於不相同機架的隨機節點上。

第三個副本和第二個副本位於相同機架,節點隨機。

3)hadoop2.7.2副本節點擊擇【重要】

第乙個副本在client所處的節點上。如果客戶端在集群外,隨機選乙個。

第二個副本和第乙個副本位於相同機架,隨機節點。(第二副本與第一副本距離更近)

第三個副本位於不同機架,隨機節點。

hdfs網路拓撲與機架感知

在了解hdfs建立檔案之前,需要對hdfs網路拓撲有乙個淺顯的認知,繼而對機架感知做乙個簡單的介紹。在海量資料處理中,其主要限制因素是節點之間資料的傳輸速率 頻寬稀缺。這裡的想法是將兩個節點間的距離作為頻寬的衡量標準。hadoop 採用乙個簡單的方法 把網路看作一棵樹,兩個節點間的距離是它們到最近共...

hdfs 機架感知

client 向 active nn 傳送寫請求時,nn為這些資料分配dn位址,hdfs檔案塊副本的放置對於系統整體的可靠性和效能有關鍵性影響。乙個簡單但非優化的副本放置策略是,把副本分別放在不同機架,甚至不同idc,這樣可以防止整個機架 甚至整個idc崩潰帶來的錯誤,但是這樣檔案寫必須在多個機架之...

HDFS 機架感知

實際上需要工程師收到建立乙個指令碼 python sh 指令碼中記錄主機ip和交換機的對應關係。配置的位置是core site.xml最終新增如下配置 usr bin python coding utf 8 import sys rack if name main print rack.get sy...