在
swish-e
、lucene
等搜尋引擎中,索引檔案有的採用
binary
格式,對於整數、
long
等資料型別通常採用壓縮演算法,再寫入到索引檔案中。對於其中幾種資料型別壓縮進行了分析。
整數壓縮演算法:
在整數前面增加
0,形成
n*7位的二進位制格式;
將整數分割為
7位組;
在第一組前增加
1,如果還有其餘的分組,在其餘分組前面都加
1,(最後一組除外)。
比如:int 135
二進位制為
10000111
,首先新增
0,位數達到
7的倍數:
00000010000111, 然後
7位分組,除最後的分組外,其餘分組前都加1。
1000001 00000111
,然後將分組以
byte
的方式進行儲存。
**為(修改於
swsih-e 2.4.5
的壓縮演算法
compress.c):
搜尋引擎 索引
正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...
MySQL搜尋引擎程式 mysql搜尋引擎
mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...
lycos搜尋引擎 常用的搜尋引擎都有哪些特點?
1 基於字詞結合的資訊處理方式,巧妙解決了中文資訊的理解問題,極大地提高了搜尋的準確性。2 智慧型相關度演算法。採用了基於內容和基於超鏈分析相結合的方法進行相關度評價,能夠客觀分析網頁所包含的資訊,從而最大限度保證了檢索結果相關性。4 智慧型性 可擴充套件的搜尋技術保證最快最多的收集網際網路資訊。擁...