《資訊檢索導論》(第五章)索引壓縮

2021-08-05 21:28:47 字數 683 閱讀 3513

① 增加快取記憶體(catching)技術的利用率;

② 加快資料從磁碟到記憶體的傳輸速度;

壓縮技術分為有失真壓縮無失真壓縮,無失真壓縮是指壓縮後所有的原始資訊都被保留下來,當有失真壓縮損失的資訊不被檢索系統檢索到時,有失真壓縮是有意義的。對於web檢索來說,文件數目大、查詢時間短、使用者只關注前幾頁的特點等等;

語言統計學三大定律:heap定律、zipf定律、benford定律;

其中,heap定律用於詞項數目m的估計,將詞項數目表示成文件集大小的乙個函式,t為文件集中的詞條數目,k,b為引數,文件集詞條數目t與詞彙量m在對數空間下為線性關係:m=

k∗tb

zipf定律是常用的估計詞項在文件中分布的模型,出現第i多的詞項的頻率與1/i成正比;

benford定律是指自然形成的十進位制資料中,任何乙個資料的第乙個數字為d的概率近似為log10(1+1/d),benford定律常用在資料是否造假的檢驗上;① 將整個詞典排序後看作成單一的字串,同時每個詞項在結束位都有乙個指向下乙個詞項開頭的指標用來標記詞項結束;

② 將方法①中的字串分成大小相同的塊(假設k個),每個塊保留第乙個詞項的指標,除此之外,每個詞項保留乙個位元組來儲存每個詞項長度,方法①查詢原理採用的是二分查詢法,在分塊之後,在使用二分查定位到塊後,在塊內使用的是線性查詢;

《資訊檢索導論》第五章總結

使用壓縮的目的 1 因為我們想要把盡量多的資料放入記憶體,因此壓縮能夠達到這個目的 2 從磁碟到記憶體的傳輸時間會縮短 1 無失真壓縮 壓縮後的資料能還原全部資訊 2 有失真壓縮 壓縮後會丟失一些資訊 如果有失真壓縮後丟失的資訊使用者並不關心,則有失真壓縮也是可以接受的 通過整個文件集詞條數來估計詞...

工程導論第五章

從無到有的創造事物是工程學的核心。前面幾章闡述到工程學是把一些特定的目的和需求變成現實的學科。也就意味著這個學科充滿創造性。這份創造性也是現代企業的核心競爭力所在。而創造乙個產品,並不只是簡單的構想加上一般的製作。需要乙個團隊乙個集體,在接到乙個產品構思後通過乙個流程使產品生產成功並更具競爭力。創造...

演算法導論 第五章 隨機演算法

許多隨機演算法通過排列給定輸入陣列來是輸入隨機化。在這裡我們將討論兩種隨機化方法。假設給定乙個陣列a,他包含元素1到n,我們的目標就是構造這個陣列的乙個隨機排列。方法一 為陣列中個每乙個元素a i 賦予乙個隨機優先順序p i 然後根據優先順序對陣列a中的元素進行排序。如初始陣列a 1,2,3,4 且...