fast hash table 學習筆記

引入知識：hash table

hash table原理

引入知識：布隆過濾器

bloom filters

布隆過濾器**

想要學習一下fast hash table，沒有找到中文資料，只能生啃**了。

本篇部落格主要是翻譯fast hash table的一篇優秀**：song h, dharmapurikar s, turner j, et al. fast hash table lookup using extended bloom filter: an aid to network processing[j]. acm sigcomm computer communication review, 2005, 35(4): 181-192.

雜湊表是一種通用資料結構，用於執行快速關聯查詢，這需要每次查詢o（1）次平均記憶體訪問。實際上，由於其在網路資料報處理中的廣泛適用性，一些現代網路處理器提供了內建的雜湊單元。乙份有關網路資料報處理的最新研究文獻的調查顯示，雜湊表對於許多應用程式都是通用的，包括按流狀態管理，ip查詢和資料報分類。這些應用程式通常出現在高速路由器的資料路徑中。因此，它們必須能夠以線速處理資料報，這使得基礎雜湊表必須提供良好的查詢效能。

為了清楚起見，我們從樸素的雜湊表（nht）開始逐步開發演算法和雜湊表體系結構。

我們採用雜湊表演算法中的鏈位址法解決衝突，因為它比開放式定址方案具有更好的效能，並且是最流行的方法之一。

現在，我們介紹我們的快速雜湊表（fht）演算法。

首先介紹快速雜湊表的基本形式，我們稱其為基本快速雜湊表（bfht），然後對其進行改進。快速雜湊表基於布隆過濾器的一種變種，稱為計數布隆過濾器，其中過濾器的每一位都被乙個計數器代替。在插入專案後，由相應雜湊值索引的每個計數器都會增加。由於其結構，此過濾器中的計數器實質上為我們提供了其中雜湊的專案數。我們將在表中顯示如何有效地使用此資訊以最小化搜尋時間。

我們維護乙個由m個計數器組成的陣列c，其中每個計數器ci與雜湊表的儲存區（桶）i相關聯。我們在輸入項上計算雜湊函式h1(),h2()…,hk()並遞增由這些雜湊值索引的相應k個計數器。然後，我們將該專案儲存在與每個儲存桶相關的列表中。

因此，單個專案被多次儲存在片外儲存器中。下面是插入乙個專案的演算法描述。

請注意，如果有多個雜湊函式對映到同一位址，則我們只會將計數器遞增一次，並且只會在該儲存桶中儲存一項的副本。為了檢查雜湊值是否衝突，我們將先前為該專案計算的所有雜湊值保留在暫存器中，並將新雜湊值與所有雜湊值進行比較（上述插入演算法第2行）。

如下圖所示，四個不同的專案x，y，z和w已依次插入。每個專案都複製到k = 3個不同的儲存桶中，並且與該儲存桶關聯的計數器值反映了其中的專案數。

其次，要檢查列表的選擇至關重要，因為列表遍歷時間取決於列表長度。因此，我們選擇與計數器關聯的具有最小值的列表，以減少片外儲存器訪問。我們演算法的加速來自以下事實：它可以選擇最小的列表進行搜尋，因為nht只能跟蹤可能包含多個專案的乙個列表。

在大多數情況下，對於經過仔細選擇的儲存桶數，最小值計數器的值為1，僅需要單個儲存器即可訪問片外儲存器。在圖2所示的示例中，如果查詢專案y，則僅需要訪問列表x11，而不是長度比x11長的x3或x6。

當由輸入專案索引的多個計數器具有相同的最小值時，則必須以某種方式打破平局。我們通過簡單地選擇索引最小的最小值計數器來打破這種關係。例如，在圖2中，專案x的兩個儲存桶計數器設定為2，這也是最小值。在這種情況下，我們總是訪問儲存桶x1。

以下偽**總結了bfht上的搜尋演算法。

最後，如果輸入的專案不存在於專案列表中，則很明顯這是計數布隆過濾器指示的誤報匹配。

使用上面的資料結構，刪除專案很容易。我們只需遞減與該專案關聯的計數器，然後從相應列表中刪除所有副本。

在bfht中，我們需要維護每個專案的k個副本，這需要比nht多k倍的記憶體。但是，可以觀察到，在bfht中，探查表時只能訪問每個專案的乙個副本（與最小計數器值關聯的副本）。永遠不會訪問該項目的其餘（k-1）個副本。此觀察結果為我們提供了進行記憶體優化的第乙個機會：現在可以刪除該項目的所有其他副本，但在搜尋過程中訪問的副本除外。

因此，在此修剪過程之後，我們只有乙個副本，該副本將記憶體需求減少到與nht相同。我們將生成的雜湊表稱為修剪的快速雜湊表（pfht）。

以下偽**總結了修剪演算法。

修剪過程如圖3（a）所示。要注意，在修剪過程中，計數器值不會更改。因此，修剪完成後，計數器值不再反映列表中實際顯示的項數，通常大於該值。但是，對於給定的專案，計數器值最小的儲存桶始終包含該專案。此屬性可確保搜尋結果的正確性。修剪的另乙個特性是，它與修剪專案的順序無關，因為它僅取決於不會更改的計數器值。因此，按順序在x-y-z-w中進行修剪將產生與在z-y-x-w中進行修剪相同的結果。

修剪過程的侷限性在於，現在很難執行對錶的增量更新。由於計數器值不再反映列表中的專案數，因此如果分別為任何新插入或刪除操作增加或減少計數器，則可能會干擾與儲存桶中現有專案相對應的計數器值，從而導致錯誤的結果搜尋。例如，在圖3（a）中，項y分別對映到具有計數器值的列表。

當我們要刪除專案時，我們首先使用deleteitem bfht演算法（第2-5行）對離線資料結構執行刪除操作。然後，我們將所有受影響的bfht儲存桶（計數器遞減的儲存桶）中的所有專案收集起來以重新插入。同時，我們從pfht中刪除了與每個儲存桶關聯的專案列表，因為現在必須重新插入每個專案（第7-8行）。最後，對於收集到的專案列表中的每個專案，我們都像在insertitem中一樣重新插入（第9-12行）pfht。注意deleteitem的第6-12行與insertitem pfht的第4-10行之間的相似之處。唯一的區別是，在deleteitem pfht中，我們從bfht收集要重新插入的專案並且遞減計數器而不是遞增計數器。

在我們得出deleteitem演算法的複雜度的表示式之前，我們注意到涉及兩種型別的操作：bfht和pfht。由於bfht操作可以在後台執行而不會妨礙pfht的正常操作，因此我們僅得出pfht操作的複雜性。考慮到這一點，我們注意到bfht中每個非空桶的專案數為2nk / m，因為在最佳配置中只有一半的桶是非空的（請參閱第3節）。由於我們從k個桶中收集物品，因此我們總共需要重新調整2nk ^ 2 / m個專案（在第9行的迴圈中）。為了重新調整，我們需要讀取和寫入每個專案。因此，刪除操作的總體複雜度為o（4nk ^ 2 / m）。通過對錶進行最佳配置，它可以簡化為4kln2 = 2.8k。

（未完待續…

fast hash table 學習筆記

學習學習再學習

學習學習再學習

只是學習學習再學習

fast hash table 學習筆記

學習學習再學習

學習 學習 再學習

只是學習 學習 再學習

相關推薦

學習學習再學習

只是學習學習再學習