字典樹入門爽一發

trie樹，即字典樹，又稱單詞查詢樹或鍵樹，是一種樹形結構，是一種雜湊樹的變種。典型應用是用於統計和排序大量的字串（但不僅限於字串），所以經常被搜尋引擎系統用於文字詞頻統計。它的優點是：最大限度地減少無謂的字串比較，查詢效率比雜湊表高。

trie的核心思想是空間換時間。利用字串的公共字首來降低查詢時間的開銷以達到提高效率的目的。

它有3個基本性質：

根節點不包含字元，除根節點外每乙個節點都只包含乙個字元。

從根節點到某一節點，路徑上經過的字元連線起來，為該節點對應的字串。

每個節點的所有子節點包含的字元都不相同。

題目：給你100000個長度不超過10的單詞。對於每乙個單詞，我們要判斷他出沒出現過，如果出現了，求第一次出現在第幾個位置。

分析：這題當然可以用hash來解決，但是本文重點介紹的是trie樹，因為在某些方面它的用途更大。比如說對於某乙個單詞，我們要詢問它的字首是否出現過。這樣hash就不好搞了，而用trie還是很簡單。

假設我要查詢的單詞是abcd，那麼在他前面的單詞中，以b，c，d，f之類開頭的我顯然不必考慮。而只要找以a開頭的中是否存在abcd就可以了。同樣的，在以a開頭中的單詞中，我們只要考慮以b作為第二個字母的，一次次縮小範圍和提高針對性，這樣乙個樹的模型就漸漸清晰了。

好比假設有b，abc，abd，bcd，abcd，efg，hii 這6個單詞，我們構建的樹就是如下圖這樣的：

ok，如上圖所示，對於每乙個節點，從根遍歷到他的過程就是乙個單詞，如果這個節點被標記為

紅色，就表示這個單詞存在，否則不存在。

那麼，對於乙個單詞，我只要順著他從根走到對應的節點，再看這個節點是否被標記為紅色就可以知道它是否出現過了。把這個節點標記為紅色，就相當於插入了這個單詞。

這樣一來我們查詢和插入可以一起完成（重點體會這個查詢和插入是如何一起完成的，稍後，下文具體解釋），所用時間僅僅為單詞長度，在這乙個樣例，便是10。

我們可以看到，trie樹每一層的節點數是26^i級別的。所以為了節省空間。我們用動態鍊錶，或者用陣列來模擬動態。空間的花費，不會超過單詞數×單詞長度。

已知n個由小寫字母構成的平均長度為10的單詞,判斷其中是否存在某個串為另乙個串的字首子串。下面對比3種方法：

最容易想到的：即從字串集中從頭往後搜，看每個字串是否為字串集中某個字串的字首，複雜度為o(n^2)。

使用hash：我們用hash存下所有字串的所有的字首子串，建立存有子串hash的複雜度為o(n*len)，而查詢的複雜度為o(n)* o(1)= o(n)。

使用trie：因為當查詢如字串abc是否為某個字串的字首時，顯然以b,c,d....等不是以a開頭的字串就不用查詢了。所以建立trie的複雜度為o(n*len)，而建立+查詢在trie中是可以同時執行的，建立的過程也就可以成為查詢的過程，hash就不能實現這個功能。所以總的複雜度為o(n*len)，實際查詢的複雜度也只是o(len)。（說白了，就是trie樹的平均高度h為len，所以trie樹的查詢複雜度為o（h）=o（len）。好比一棵二叉平衡樹的高度為logn，則其查詢，插入的平均時間複雜度亦為o（logn））。

trie樹是簡單但實用的資料結構，通常用於實現字典查詢。我們做即時響應使用者輸入的ajax搜尋框時，就是trie開始。本質上，trie是一顆儲存多個字串的樹。相鄰節點間的邊代表乙個字元，這樣樹的每條分支代表一則子串，而樹的葉節點則代表完整的字串。和普通樹不同的地方是，相同的字串字首共享同一條分支。下面，再舉乙個例子。給出一組單詞，inn, int, at, age, adv, ant, 我們可以得到下面的trie：

可以看出：

查詢操縱非常簡單。比如要查詢int，順著路徑i -> in -> int就找到了。

搭建trie的基本演算法也很簡單，無非是逐一把每則單詞的每個字母插入trie。插入前先看字首是否存在。如果存在，就共享，否則建立對應的節點和邊。比如要插入單詞add，就有下面幾步：

考察字首"a"，發現邊a已經存在。於是順著邊a走到節點a。

考察剩下的字串"dd"的字首"d"，發現從節點a出發，已經有邊d存在。於是順著邊d走到節點ad

考察最後乙個字元"d"，這下從節點ad出發沒有邊d了，於是建立節點ad的子節點add，並把邊ad->add標記為d。

基本模版

1、結構體定義：

struct node

tree[maxn];

2、新節點建立

int t=0;

struct node *creat()

return p; }

3、插入

void insert(struct node **root,char *s)

i=0;

while(s[i])

p->flag=1; }

4、查詢

int search(struct node **root,char *s)

while(s[i])

return p->flag;//return p->count; }

最後來兩道模板題爽爽

hdu 1247 hat's words

#include#include#includeusing namespace std;
const int n = 26;
const int maxn = 1000000;
char s[50001][101];
struct node
tree[maxn];
int t = 0;
struct node *create()
return p;
};void insert(struct node **root, char *s)
int i = 0;
while(s[i])
p -> flag = 1;
}bool search(struct node **root, char *s)
return p -> flag;
}int main()}}
}return 0;
}

poj 3630 phone list

#include #include #include const int n=11;
const int maxn=1000001;
int flag;
using namespace std;
struct node
tree[maxn];
int t=0;
struct node *creat()
return p;
}void insert(struct node **root,char *s)
l=strlen(s);
for(i=0;inext[k]&&i==l-1)  //注意該步驟為判斷該序列是否為之前序列的字首， 與以下判斷不同
if(p->next[k])  //判斷s序列是否有字首
}else
p->next[k]=creat();
p=p->next[k];
}p->flag=1;
}int main()
{    char s1[n];
int t,i,c;
scanf("%d",&t);
while(t--)
{t= 0;
flag=0;
struct node *root=null;
scanf("%d%*c",&c);
for(i=0;i

字典樹入門爽一發

開博第一發

資料結構第一發

Linux（一）發展背景

字典樹入門爽一發

開博第一發

資料結構 第一發

Linux（一） 發展 背景

相關推薦

資料結構第一發

Linux（一）發展背景