布隆過濾器（Bloom Filter）

布隆過濾器（bloom filter）是由布隆（burton howard bloom）在2023年提出的。它實際上是由乙個很長的二進位制向量（位向量）和一系列隨機對映函式組成，布隆過濾器可以用於檢索乙個元素是否在乙個集合中。

基本思想

如果想要判斷乙個元素是不是在乙個集合裡，一般想到的是將所有元素儲存起來，然後通過比較確定。鍊錶，樹等等資料結構都是這種思路. 但是隨著集合中元素的增加，我們需要的儲存空間越來越大，檢索速度也越來越慢(o(n),o(logn))。不過世界上還有一種叫作雜湊表（又叫雜湊表，hash table）的資料結構。它可以通過乙個hash函式將乙個元素對映成乙個位陣列（bit array）中的乙個點。這樣一來，我們只要看看這個點是不是1就可以知道集合中有沒有它了。這就是布隆過濾器的基本思想。

當乙個元素被加入集合時，通過 k 個 hash 函式將這個元素對映成乙個位陣列（bit array）中的 k 個點，把它們置為 1。檢索時，我們只要看看這些點是不是都是 1 就（大約）知道集合中有沒有它了：

如果這些點有任何乙個 0，則被檢索元素一定不在；

如果都是 1，則被檢索元素很可能在。

作用本質上布隆過濾器是一種資料結構，比較巧妙的概率型資料結構（probabilistic data structure），特點是高效地插入和查詢，可以用來告訴你「某樣東西一定不存在或者可能存在」。

相比於傳統的 list、set、map 等資料結構，它更高效、占用空間更少，但是缺點是其返回的結果是概率性的，而不是確切的。

布隆過濾器（Bloom Filter）

spark 布隆過濾器 bloomFilter

布隆過濾器

布隆過濾器

相關推薦