Hadoop之HA高可用性

2021-08-10 22:00:40 字數 3616 閱讀 4808

ha存在的背景:

ha的工作原理圖:

hdfs ha高可用性

1、active namenode對外提供服務和standby namenode時刻待機準備的

2、保證兩個namenode任何時候都是元資料同步的

3、standby namenode同樣需要去讀取fsimage和edits檔案

-》edits變化後的資料檔案同樣也是需要實時同步的

4、如何同步日誌資訊

cloudera公司提出乙個方案,分布式儲存日誌檔案

編輯日誌檔案寫入,一寫寫多份,結合之前講解的zk的2n+1的概念

策略:寫多份,再讀取,前提條件節點數目必須是奇數個

active namenode和standby namenode有一塊共享儲存日誌的區域

5、jounralnode日誌節點:專門管理編輯日誌檔案的

-》qjm全稱是quorum journal manager, 由journalnode(jn)組成,一般是奇數點結點組成。每個journalnode對外有乙個簡易的rpc介面,以供namenode讀寫editlog到jn本地磁碟。當寫editlog時,namenode會同時向所有journalnode並行寫檔案,只要有n/2+1結點寫成功則認為此次寫操作成功,遵循paxos協議。

-》注意在ha的架構下,就不需要secondarynamenode了

-》jn日誌節點是乙個輕量級的,所以可以和hadoop的其他守護執行緒放在一起

6、datanode需要向standby namenode實時匯報塊的狀態資訊

7、如何幫助客戶端判斷hdfs正在提供服務的namenode

-》通過**的方式判斷

8、在任何時刻下,必須要保證只有乙個namenode對外提供服務

-》當兩個namenode啟動以後,由zk來完成選舉,選舉出乙個active namenode

-》隔離機制

主備切換機制:

從圖中可以看出,整個切換過程是由zkfc來控制的,具體又可分為healthmonitor、zkfailovercontroller和activestandbyelector三個元件。

在故障切換期間,zookeeper主要是發揮什麼作用呢,有以下幾點:

那在哪些場景會觸發自動切換呢,從hdfs-2185中歸納了以下幾個場景:

歸納起來主要是兩塊:元資料同步和主備選舉。元資料同步依賴於qjm共享儲存,主備選舉依賴於zkfc和zookeeper。

hdfs ha架構部署

1、準備

乙個完全分布式的hadoop環境

乙個完全分布式的zookeeper環境

為了保證出錯可以恢復,建議重新備份乙份完全分布式的環境

2、在配置之前,先關閉整個集群的所有服務

3、修改hdfs-site.xml檔案

-》將secondarynamenode引數刪除,不需要

-》給namenode管理的元資料空間起乙個邏輯名稱

dfs.nameservices

ns1-》指定兩個namenode的邏輯名稱

dfs.ha.namenodes.ns1

nn1,nn2

-》指定兩個namenode的例項,rpc內部通訊,監聽位址

dfs.namenode.rpc-address.ns1.nn1

bigdata-01.yushu.com:8020

dfs.namenode.rpc-address.ns1.nn2

bigdata-02.yushu.com:8020

-》指定兩個namenode的例項,http監聽位址

-》指定journalnode日誌節點的uri

dfs.namenode.shared.edits.dir

qjournal:

-》指定jn本地儲存日誌的路徑

dfs.journalnode.edits.dir

->>配置**

dfs.client.failover.proxy.provider.ns1

org.apache.hadoop.hdfs.server.namenode.ha.configuredfailoverproxyprovider

-》指定選擇哪個隔離的方案,選擇ssh

dfs.ha.fencing.methods

sshfence

dfs.ha.fencing.ssh.private-key-files

/home/ds/.ssh/id_rsa

-》指定是否開啟自動故障轉移功能

dfs.ha.automatic-failover.enabled

true

-》修改core-site.xml檔案,指定zk的例項和埠號

ha.zookeeper.quorum

bigdata-01.yushu.com:2181,bigdata-02.yushu.com:2181,bigdata-03.yushu.com:2181

-》指定管理的命名空間

fs.defaultfs

hdfs://ns1

高可用性(HA)指標說明

高可用性 high ailability簡稱ha 多被定義為it系統的運營綜合指標,其體現形式就是乙個多個九的百分數,表徵it系統運營的穩定可靠程度,越靠近100 就表明系統約穩定可靠,當然這種穩定與可靠需諸多方面的努力才能獲得,例如應用程式結構設計 it系統冗餘架構 災備機制 環境基礎 水 電 空...

HDFS高可用性HA架構原理及環境搭建

1 元資料同步 hdfs高可用性保證兩個namenode記憶體中儲存的檔案系統元資料是一致的。namenode的啟動過程 乙個namenode啟動時,讀取fsimage和edits檔案,讀取後會生成新的fsimage和edits檔案,另乙個namenode同樣需要去讀取這兩個檔案,變化後的edits...

VMWare虛擬機器高可用性技術 HA 和 FT

vmware提供了一系列保護虛擬機器可用性的功能 ha ft vadp srm以及vmotion。實現最大化虛擬系統可用性的關鍵在於了解公司策略以及可利用的技術能夠使用哪些特性。下面簡要介紹一下在特定的場景下如何選擇vmware提供的高可用性特性。意外的主機宕機 vmware ha vs.ft 到目...