5.索引壓縮
有失真壓縮:大小寫轉換,詞幹還原、停用詞剔除、向量空間模型、lsa(隱性語義分析)等;
無失真壓縮:(下面介紹的壓縮方法)
heaps定律:詞項數目的估計---m=kt^b(m-詞項數,t-文件集合中詞條個數,30《k《100,b=0.5)
zipf定律:詞項在文件中分布的估計---排名第i多的詞項的文件集頻率與1/i成正比,例如:如果出現第一多的詞項出現次數是cf1,那麼出
現第二多的詞項出現次數就是cf1/2。用於倒排記錄表壓縮時的詞項分布建模。
其他有關詞項分布的模型:k混合模型,雙泊松模型(見15)
詞典壓縮:1.詞典採用定長陣列儲存所有詞項按照詞典序排序,但這樣會造成空間浪費,如每個詞項都採用20b的固定長度
解決辦法:將所有項存成乙個長字串,給每個詞項增加乙個定位指標;
2.按塊儲存:對1進一步的壓縮,將長字串中的詞項分組變成大小為k的塊(即k個詞項一組),然後對每個塊只保留第乙個
詞項的指標,對每個塊而言減少了k-1個指標,但需要額外的kb儲存k個詞項的長度。、
3.前端編碼:對2進一步的壓縮,按照詞典順序排序的連續詞項之前往往具有公共字首,公共字首被識別出來之後,後續詞項
可以使用乙個特殊的字元來表示這段字首
4.更高效的壓縮率方法:最小完美雜湊---將m個詞項對映到[1,…,m]上(無法在動態環境下使用)
倒排記錄表的壓縮:高頻詞出現的文件id序列間距很小,用20bit位數表示;對於低頻詞間距很大,也用20bit表示,這造成空間浪費。
對小數字採用比大數字更短的編碼方式,採用兩種方法:按位元組壓縮(1)及按位壓縮(2,3)。
1.vb(可變位元組):利用整數個位元組對間距編碼,位元組第1位是延續位,表明本位元組是某個間距編碼的開始或結束,後7位
是間距的有效編碼區。
磁碟空間不緊張的情況下採用vb編碼,或採用位對齊的二元編碼。
2.γ編碼:更細的位粒度上進行編碼長度的自適應調整。?p69
3.δ編碼:
大數字(大於15)佔主要地位時,δ編碼優於γ編碼;大規模文件集上,採用golomb編碼更優。
《資訊檢索導論》第二十章總結
web採集是從web中採集大量網頁的過程,並且要避免採集重複或無用的頁面,採集完的網頁需要構建索引,以擴大搜尋引擎的索引規模 web採集通常是由多台機器並行採集 1 web採集器需要識別採集器陷阱 spider traps 比如當採集器訪問到某個web伺服器的網頁時,此網頁會生成無限多個網頁被採集器...
《資訊檢索導論》第五章總結
使用壓縮的目的 1 因為我們想要把盡量多的資料放入記憶體,因此壓縮能夠達到這個目的 2 從磁碟到記憶體的傳輸時間會縮短 1 無失真壓縮 壓縮後的資料能還原全部資訊 2 有失真壓縮 壓縮後會丟失一些資訊 如果有失真壓縮後丟失的資訊使用者並不關心,則有失真壓縮也是可以接受的 通過整個文件集詞條數來估計詞...
《資訊檢索導論》第二十章總結
web採集是從web中採集大量網頁的過程,並且要避免採集重複或無用的頁面,採集完的網頁需要構建索引,以擴大搜尋引擎的索引規模 web採集通常是由多台機器並行採集 1 web採集器需要識別採集器陷阱 spider traps 比如當採集器訪問到某個web伺服器的網頁時,此網頁會生成無限多個網頁被採集器...