資料結構與演算法 day8 雜湊演算法及其應用

2021-09-24 08:15:20 字數 4588 閱讀 2297

雜湊演算法的定義和原理非常簡單,基本上一句話就可以概括了。將任意長度的二進位制值串對映為固定長度的二進位制值串,而通過原始資料對映之後得到的二進位制值串就是雜湊值

但是,要想設計乙個優秀的雜湊演算法並不容易,根據我的經驗,我總結了需要滿足的幾點要求:

我們分別對「今天我來講雜湊演算法」和「jiajia」這兩個文字,計算 md5 雜湊值,得到兩串看起來毫無規律的字串(md5 的雜湊值是 128 位的 bit 長度,為了方便表示,我把它們轉化成了 16 進製編碼)。可以看出來,無論要雜湊的文字有多長、多短,通過 md5 雜湊之後,得到的雜湊值的長度都是相同的,而且得到的雜湊值看起來像一堆隨機數,完全沒有規律。

md5(" 今天我來講雜湊演算法 ") = bb4767201ad42c74e650c1b6c03d78fa

md5("jiajia") = cd611a31ea969b908932d44d126d195b

複製**

這兩個文字只有乙個感嘆號的區別。如果用 md5 雜湊演算法分別計算它們的雜湊值,儘管只有一字之差,得到的雜湊值也是完全不同的。

md5(" 我今天講雜湊演算法!") = 425f0d5a917188d2c3c3dc85b5e4f2cb

md5(" 我今天講雜湊演算法 ") = a1fb91ac128e6aa37fe42c663971ac3d

複製**

雜湊演算法的應用非常非常多,最常見的七個,分別是安全加密、唯一標識、資料校驗、雜湊函式、負載均衡、資料分片、分布式儲存。

說到雜湊演算法的應用,最先想到的應該就是安全加密。最常用於加密的雜湊演算法是md5(md5 message-digest algorithm,md5 訊息摘要演算法)和sha(secure hash algorithm,安全雜湊演算法)。

除了這兩個之外,當然還有很多其他加密演算法,比如des(data encryption standard,資料加密標準)、aes(advanced encryption standard,高階加密標準)。

前面我講到的雜湊演算法四點要求,對用於加密的雜湊演算法來說,有兩點格外重要。第一點是很難根據雜湊值反向推導出原始資料,第二點是雜湊衝突的概率要很小

雜湊衝突概率要小?

這裡就基於組合數學中乙個非常基礎的理論,鴿巢原理(也叫抽屜原理)。這個原理本身很簡單,它是說,如果有 10 個鴿巢,有 11 只鴿子,那肯定有 1 個鴿巢中的鴿子數量多於 1 個,換句話說就是,肯定有 2 只鴿子在 1 個鴿巢內。

有了鴿巢原理的鋪墊之後,我們再來看,為什麼雜湊演算法無法做到零衝突?

我們知道,雜湊演算法產生的雜湊值的長度是固定且有限的。比如前面舉的 md5 的例子,雜湊值是固定的 128 位二進位制串,能表示的資料是有限的,最多能表示 2^128 個資料,而我們要雜湊的資料是無窮的。基於鴿巢原理,如果我們對 2^128+1 個資料求雜湊值,就必然會存在雜湊值相同的情況。這裡你應該能想到,一般情況下,雜湊值越長的雜湊演算法,雜湊衝突的概率越低。

舉乙個例子。如果要在海量的相簿中,搜尋一張圖是否存在,我們不能單純地用的元資訊(比如名稱)來比對,因為有可能存在名稱相同但內容不同,或者名稱不同內容相同的情況。那我們該如何搜尋呢?

我們知道,任何檔案在計算中都可以表示成二進位製碼串,所以,比較笨的辦法就是,拿要查詢的的二進位製碼串與相簿中所有的二進位製碼串一一比對。如果相同,則說明在相簿中存在。但是,每個小則幾十 kb、大則幾 mb,轉化成二進位制是乙個非常長的串,比對起來非常耗時。有沒有比較快的方法呢?

我們可以給每乙個取乙個唯一標識,或者說資訊摘要。比如,我們可以從的二進位製碼串開頭取 100 個位元組,從中間取 100 個位元組,從最後再取 100 個位元組,然後將這 300 個位元組放到一塊,通過雜湊演算法(比如 md5),得到乙個雜湊字串,用它作為的唯一標識。通過這個唯一標識來判定是否在相簿中,這樣就可以減少很多任務作量。

前面講了很多雜湊演算法的應用,實際上,雜湊函式也是雜湊演算法的一種應用。

我們前兩節講到,雜湊函式是設計乙個雜湊表的關鍵。它直接決定了雜湊衝突的概率和雜湊表的效能。不過,相對雜湊演算法的其他應用,雜湊函式對於雜湊演算法衝突的要求要低很多。即便出現個別雜湊衝突,只要不是過於嚴重,我們都可以通過開放定址法或者鍊錶法解決。

不僅如此,雜湊函式對於雜湊演算法計算得到的值,是否能反向解密也並不關心。雜湊函式中用到的雜湊演算法,更加關注雜湊後的值是否能平均分布,也就是,一組資料是否能均勻地雜湊在各個槽中。除此之外,雜湊函式執行的快慢,也會影響雜湊表的效能,所以,雜湊函式用的雜湊演算法一般都比較簡單,比較追求效率

負載均衡演算法有很多,比如輪詢、隨機、加權輪詢等。那如何才能實現乙個會話粘滯的負載均衡演算法呢?也就是說,我們需要在同乙個客戶端上,在一次會話中的所有請求都路由到同乙個伺服器上。

最直接的方法就是,維護一張對映關係表,這張表的內容是客戶端 ip 位址或者會話 id 與伺服器編號的對映關係。客戶端發出的每次請求,都要先在對映表中查詢應該路由到的伺服器編號,然後再請求編號對應的伺服器。這種方法簡單直觀,但也有幾個弊端:

如果借助雜湊演算法,這些問題都可以非常完美地解決。我們可以通過雜湊演算法,對客戶端 ip 位址或者會話 id計算雜湊值,將取得的雜湊值與伺服器列表的大小進行取模運算,最終得到的值就是應該被路由到的伺服器編號。 這樣,我們就可以把同乙個 ip 過來的所有請求,都路由到同乙個後端伺服器上。

我們來分析一下。這個問題有兩個難點,

如何快速判斷是否在相簿中?

假設現在我們的相簿中有 1 億張,很顯然,在單台機器上構建雜湊表是行不通的。因為單台機器的記憶體有限,而 1 億張構建雜湊表顯然遠遠超過了單台機器的記憶體上限。

我們同樣可以對資料進行分片,然後採用多機處理。我們準備 n 臺機器,讓每台機器只維護某一部分對應的雜湊表。我們每次從相簿中讀取乙個,計算唯一標識,然後與機器個數 n 求餘取模,得到的值就對應要分配的機器編號,然後將這個的唯一標識和路徑發往對應的機器構建雜湊表。

當我們要判斷乙個是否在相簿中的時候,我們通過同樣的雜湊演算法,計算這個的唯一標識,然後與機器個數 n 求餘取模。假設得到的值是 k,那就去編號 k 的機器構建的雜湊表中查詢

現在,我們來估算一下,給這 1 億張構建雜湊表大約需要多少臺機器。

雜湊表中每個資料單元包含兩個資訊,雜湊值和檔案的路徑。假設我們通過 md5 來計算雜湊值,那長度就是 128 位元,也就是 16 位元組。檔案路徑長度的上限是 256 位元組,我們可以假設平均長度是 128 位元組。如果我們用煉表法來解決衝突,那還需要儲存指標,指標只占用 8 位元組。所以,雜湊表中每個資料單元就占用 152 位元組(這裡只是估算,並不準確)。

假設一台機器的記憶體大小為 2gb,雜湊表的裝載因子為 0.75,那一台機器可以給大約 1000 萬(2gb*0.75/152)張構建雜湊表。所以,如果要對 1 億張構建索引,需要大約十幾台機器。在工程中,這種估算還是很重要的,能讓我們事先對需要投入的資源、資金有個大概的了解,能更好地評估解決方案的可行性。

應用七:分布式儲存

現在網際網路面對的都是海量的資料、海量的使用者。我們為了提高資料的讀取、寫入能力,一般都採用分布式的方式來儲存資料,比如分布式快取。我們有海量的資料需要快取,所以乙個快取機器肯定是不夠的。於是,我們就需要將資料分布在多台機器上。

該如何決定將哪個資料放到哪個機器上呢?我們可以借用前面資料分片的思想,即通過雜湊演算法對資料取雜湊值,然後對機器個數取模,這個最終值就是應該儲存的快取機器編號。

但是,如果資料增多,原來的 10 個機器已經無法承受了,我們就需要擴容了,比如擴到 11 個機器,這時候麻煩就來了。因為,這裡並不是簡單地加個機器就可以了。

原來的資料是通過與 10 來取模的。比如 13 這個資料,儲存在編號為 3 這台機器上。但是新加了一台機器中,我們對資料按照 11 取模,原來 13 這個資料就被分配到 2 號這台機器上了。

因此,所有的資料都要重新計算雜湊值,然後重新搬移到正確的機器上。這樣就相當於,快取中的資料一下子就都失效了。所有的資料請求都會穿透快取,直接去請求資料庫。這樣就可能發生雪崩效應,壓垮資料庫。

所以,我們需要一種方法,使得在新加入乙個機器後,並不需要做大量的資料搬移。這時候,一致性雜湊演算法就要登場了。

假設我們有 k 個機器,資料的雜湊值的範圍是 [0, max]。我們將整個範圍劃分成 m 個小區間(m 遠大於 k),每個機器負責 m/k 個小區間。當有新機器加入的時候,我們就將某幾個小區間的資料,從原來的機器中搬移到新的機器中。這樣,既不用全部重新雜湊、搬移資料,也保持了各個機器上資料數量的均衡。

演算法學習 Day8

今天重拾演算法複習。今天學習了兩個型別的演算法 並查集與最小生成樹 mst 簡單記錄一下並查集的大致內容。一 並查集的內容大致作用為查詢當前圖中的點有幾個集合。該演算法起到查詢分組的情況。通過給定的條件使用陣列記錄該點對應的父節點,倘若兩個點有相同的 祖先 那他們肯定是屬於同乙個組的。下面看幾道例題...

資料結構與演算法簡記 雜湊演算法

將任意長度的二進位制值串對映為固定長度的二進位制值串,這個對映的規則就是雜湊演算法。而通過原始資料對映之後得到的二進位制值串就是雜湊值。md5 md5 message digest algorithm,md5 訊息摘要演算法 sha secure hash algorithm,安全雜湊演算法 借助h...

資料結構 雜湊演算法

最近開始學習王爭老師的 資料結構與演算法之美 通過總結再加上自己的思考的形式記錄這門課程,文章主要作為學習歷程的記錄。雜湊演算法的定義是將任意長度的二進位制值串對映為固定長度的二進位制值串。這個對映規則就是雜湊演算法。通過原始資料對映後得到的二進位制值串就是雜湊值。設計乙個優秀的雜湊演算法應滿足幾點...