讀雙陣列Trie樹演算法優化

以前，做過乙個翻譯的程式，處理的只是英文本元，當時做的，構造了乙個26叉樹（26個英文本母，每乙個字母對應乙個樹結果），當時也不知道這對應的資料結構術語是什麼？後來乙個巧合的機會知道了trie樹資料結構，發現我以前做的那個26叉樹不就是乙個trie樹嗎？其實對英文本元來說，構造乙個26叉樹也行，占用的空間也不是很大。但是針對漢語詞典（6763個常用漢字），這個就有問題了，需要乙個好的對trie樹的實現方式。這樣，雙陣列trie樹就隨之產生了，這個實現方式，構造兩個陣列，base, check陣列。base陣列的每個元素對應乙個trie樹的節點，他的值作為狀態轉移的基值，check陣列記錄校驗值，檢驗狀態的存在性。漢字的編碼如gb2312編碼，採用區位碼，兩個位元組。漢字的偏移序列碼可以採用這個漢字在gb2312編碼表中漢字的序列號。

整個演算法過程，分兩步：（1）構造base，check陣列；（2）搜尋。

具體情況可以參考中科院張華平的《雙陣列trie樹演算法優化及其應用研究》，裡面關於base，check陣列構造說的很清楚，這個得好好看看，那個搜尋環節很簡單。我的乙個疑惑：演算法裡面沒有提及好的解決衝突方法，演算法的言下之意就是經過優化後，衝突似乎可以避免了？這個不切實際吧！當資料量很少的時候，他這個演算法的確能做到，但是一旦資料量很大的話，他如何保證，當前節點的所有子節點都能在base中找到空位置？即使能找到，設定這個當前節點的base值也得花很長時間。

個人覺得，還個演算法還是有不足的地方，需要完善，比如衝突如何解決？

讀 雙陣列Trie樹演算法優化

雙陣列trie樹

雙陣列trie樹

雙陣列TRIE樹原理

相關推薦

讀雙陣列Trie樹演算法優化