分布式系統一致性Hash原理分析

2021-12-30 05:00:59 字數 3006 閱讀 5734

一、分析分布式系統一致性hash原理分析

在解決分布式系統中負載均衡的問題時候可以使用hash演算法讓固定的一部分請求落到同一臺伺服器上,這樣每台伺服器固定處理一部分請求(並維護這些請求的資訊),起到負載均衡的作用。

但是普通的餘數hash(hash(比如使用者id)%伺服器機器數)演算法伸縮性很差,當新增或者下線伺服器機器時候,使用者id與伺服器的對映關係會大量失效。一致性hash則利用hash環對其進行了改進。

二、一致性hash概述

為了能直觀的理解一致性hash原理,這裡結合乙個簡單的例子來講解,假設有4臺伺服器,位址為ip1,ip2,ip3,ip4。

一致性hash是首先計算四個ip位址對應的hash值

hash(ip1),hash(ip2),hash(ip3),hash(ip3),計算出來的hash值是0~最大正整數直接的乙個值,這四個值在一致性hash環上呈現如下圖:

hash環上順時針從整數0開始,一直到最大正整數,我們根據四個ip計算的hash值肯定會落到這個hash環上的某乙個點,至此我們把伺服器的四個ip對映到了一致性hash環

當使用者在客戶端進行請求時候,首先根據hash(使用者id)計算路由規則(hash值),然後看hash值落到了hash環的那個地方,根據hash值在hash環上的位置順時針找距離最近的ip作為路由ip.

如上圖可知user1,user2的請求會落到伺服器ip2進行處理,user3的請求會落到伺服器ip3進行處理,user4的請求會落到伺服器ip4進行處理,user5,user6的請求會落到伺服器ip1進行處理。

下面考慮當ip2的伺服器掛了的時候會出現什麼情況?

當ip2的伺服器掛了的時候,一致性hash環大致如下圖:

根據順時針規則可知user1,user2的請求會被伺服器ip3進行處理,而其它使用者的請求對應的處理伺服器不變,也就是只有之前被ip2處理的一部分使用者的對映關係被破壞了,並且其負責處理的請求被順時針下乙個節點委託處理。

下面考慮當新增機器的時候會出現什麼情況?

當新增乙個ip5的伺服器後,一致性hash環大致如下圖:

根據順時針規則可知之前user1的請求應該被ip1伺服器處理,現在被新增的ip5伺服器處理,其他使用者的請求處理伺服器不變,也就是新增的伺服器順時針最近的伺服器的一部分請求會被新增的伺服器所替代。

三、一致性hash的特性

單調性(monotonicity),單調性是指如果已經有一些請求通過雜湊分派到了相應的伺服器進行處理,又有新的伺服器加入到系統中時候,應保證原有的請求可以被對映到原有的或者新的伺服器中去,而不會被對映到原來的其它伺服器上去。 這個通過上面新增伺服器ip5可以證明,新增ip5後,原來被ip1處理的user6現在還是被ip1處理,原來被ip1處理的user5現在被新增的ip5處理。

分散性(spread):分布式環境中,客戶端請求時候可能不知道所有伺服器的存在,可能只知道其中一部分伺服器,在客戶端看來他看到的部分伺服器會形成乙個完整的hash環。如果多個客戶端都把部分伺服器作為乙個完整hash環,那麼可能會導致,同乙個使用者的請求被路由到不同的伺服器進行處理。這種情況顯然是應該避免的,因為它不能保證同乙個使用者的請求落到同乙個伺服器。所謂分散性是指上述情況發生的嚴重程度。好的雜湊演算法應盡量避免盡量降低分散性。 一致性hash具有很低的分散性

平衡性(balance):平衡性也就是說負載均衡,是指客戶端hash後的請求應該能夠分散到不同的伺服器上去。一致性hash可以做到每個伺服器都進行處理請求,但是不能保證每個伺服器處理的請求的數量大致相同,如下圖

伺服器ip1,ip2,ip3經過hash後落到了一致性hash環上,從圖中hash值分布可知ip1會負責處理大概80%的請求,而ip2和ip3則只會負責處理大概20%的請求,雖然三個機器都在處理請求,但是明顯每個機器的負載不均衡,這樣稱為一致性hash的傾斜,虛擬節點的出現就是為了解決這個問題。

五、虛擬節點

當伺服器節點比較少的時候會出現上節所說的一致性hash傾斜的問題,乙個解決方法是多加機器,但是加機器是有成本的,那麼就加虛擬節點,比如上面三個機器,每個機器引入1個虛擬節點後的一致性hash環的圖如下:

其中ip1-1是ip1的虛擬節點,ip2-1是ip2的虛擬節點,ip3-1是ip3的虛擬節點。

可知當物理機器數目為m,虛擬節點為n的時候,實際hash環上節點個數為m*n。比如當客戶端計算的hash值處於ip2和ip3或者處於ip2-1和ip3-1之間時候使用ip3伺服器進行處理。

六、均勻一致性hash

上節我們使用虛擬節點後的圖看起來比較均衡,但是如果生成虛擬節點的演算法不夠好很可能會得到下面的環:

可知每個服務節點引入1個虛擬節點後,情況相比沒有引入前均衡性有所改善,但是並不均衡。

均衡的一致性hash應該是如下圖:

均勻一致性hash的目標是如果伺服器有n臺,客戶端的hash值有m個,那麼每個伺服器應該處理大概m/n個使用者的。也就是每台伺服器負載盡量均衡

七、總結

在分布式系統中一致性hash起著不可忽略的地位,無論是分布式快取,還是分布式rpc框架的負載均衡策略都有所使用。歡迎關注簡書-阿里加多。

分布式系統 一致性模型

分布式系統中乙個重要的問題就是資料複製,資料複製一般是為了增強系統的可用性或提高效能。而實現資料複製的乙個主要難題就是保持各個副本的一致性。本文首先討論資料複製的場景中一致性模型如此重要的原因,然後討論一致性模型的含義,最後分析常用的一致性模型。資料複製主要的目的有兩個 可用性和效能。首先資料複製可...

分布式系統 一致性模型

原創 阿里云云棲社群 2019 03 13 13 00 00 分布式系統中乙個重要的問題就是資料複製,資料複製一般是為了增強系統的可用性或提高效能。而實現資料複製的乙個主要難題就是保持各個副本的一致性。本文首先討論資料複製的場景中一致性模型如此重要的原因,然後討論一致性模型的含義,最後分析常用的一致...

分布式系統一致性分類

找到了一篇比較詳細的介紹。詳細連線 大概內容 一致性的角度 以資料為中心的一致性模型 以客戶為中心的一致性模型 保證最低的序列化,以達到最好的效率。以資料為中心的一致性模型 一致性模型 嚴格一致性 因果一致性 順序一致性 fifo一致性 fifo 保證單程序的寫順序 同步變數的一致性 弱一致性 釋放...