《資訊檢索導論》第五章總結

2021-08-26 13:51:26 字數 1999 閱讀 7542

使用壓縮的目的:

(1)因為我們想要把盡量多的資料放入記憶體,因此壓縮能夠達到這個目的;

(2)從磁碟到記憶體的傳輸時間會縮短;

(1)無失真壓縮:壓縮後的資料能還原全部資訊;

(2)有失真壓縮:壓縮後會丟失一些資訊;

如果有失真壓縮後丟失的資訊使用者並不關心,則有失真壓縮也是可以接受的;

通過整個文件集詞條數來估計詞項數目;

主要思想:隨著文件集增加,詞項數目會增加,並且沒有上限;

m=kt^b;

通過詞項在文件集中的詞頻排名來估計詞項之間的詞頻比例;

如果詞項a出現次數排名第一,詞項b出現次數排名第二,詞項c出現次數排名第三,則a出現次數是b出現次數的兩倍,則a出現次數是c出現次數的1/3;

雖然與倒排記錄表相比,詞典的空間很小,但是為了能夠把詞典全部都放在記憶體中,我們必須要對其進行壓縮;

固定詞項分配大小為20b;

需要空間:m*(20+4+4)=m*28;

缺點:(1)大部分單詞都少於20b,浪費空間;

(2)對於某幾個大於20b的單詞也不能儲存;

將每個詞項合併,並組成乙個長字串;

對於每個詞項增加乙個指標;

需要空間:m*(8+4+4+3)=m*19;

相比之前,減少了1/3;

將詞典分組,分成n塊,並且只有每個塊的第乙個詞項有指標指向長字串;

在長字串的每個詞項前面新增乙個詞項長度;

如果每個塊大小為4,則每個塊可以減少3個指標,加上4個位元組表示4個詞項的長度;

因此需要空間:m(4+4+8)+m/4*3-m=m(16-1/4);

相比之前又減少了15m/4;

但是每個塊越大,壓縮率越大,則查詢的時間就越長;

因為一開始先通過二分搜尋查詢到詞項所在塊的入口,然後線性搜尋找到詞項;

二叉樹高度計算方法:

已知n個結點,這些節點構成的二叉樹的高度為:

如果給定高度為n,則滿二叉樹的節點個數為

對於3的改進方法是對於長字串的編排進行改進;

我們可以提取公共字首;

比如原來8automate9automatic,可以變成automat*1e.2ic;

此方法能夠減少儲存空間;

一般來說詞項出現頻率高,則posting連續兩個docid不會相差(gap)太遠,比如:

the --->10000 1000110002;

如果我們通過記錄兩docid的間距,則會大大減少儲存的空間;

the ---> 1000011;

壓縮率越高,解壓縮時間就越長;

規則:(1)編碼結果是整數個位元組;

(2)每個位元組的第一位是延續位,如果為1,則表示是最後乙個位元組,否則,則表示不是最後乙個位元組;

(3)每個位元組的其他7位為正常編碼位;

舉例:3--->1 0000011;

注意:可變位元組編碼的解碼消耗比起可變位編碼消耗要低得多;

乙個位元組用vb編碼的最大間距是127;2^7-1;因為如果需要編碼,則說明此數肯定不是0,因此從1開始;

如果為數n,則n個1後面添乙個0;

舉例:5--->111110

規則:(1)不記錄最高位的1;比如12--->100;

(2)編碼分為長度和偏移(長度指的是偏移的長度)

(3)長度採用一元編碼,根據偏移的長度進行編碼;

(4)偏移採用(1)的編碼;

舉例:12---> 1110(長度),100(偏移);

編碼長度:2log(g)+1;

總結:gamma編碼能夠壓縮成原始posting的1/4,即如果原來posting為400m,則現在gamma編碼後只需要100m即可;

注意:(1)gamma編碼永遠是基數字;

(2)字首無關即解碼結果唯一性;

如果數g,則最優編碼為log(g);

舉例:如果為12,則最優編碼為4;

和最優編碼長度只相差常數個倍數的編碼方式,gamma就是乙個universal code;

《資訊檢索導論》(第五章)索引壓縮

增加快取記憶體 catching 技術的利用率 加快資料從磁碟到記憶體的傳輸速度 壓縮技術分為有失真壓縮與無失真壓縮,無失真壓縮是指壓縮後所有的原始資訊都被保留下來,當有失真壓縮損失的資訊不被檢索系統檢索到時,有失真壓縮是有意義的。對於web檢索來說,文件數目大 查詢時間短 使用者只關注前幾頁的特點...

工程導論第五章

從無到有的創造事物是工程學的核心。前面幾章闡述到工程學是把一些特定的目的和需求變成現實的學科。也就意味著這個學科充滿創造性。這份創造性也是現代企業的核心競爭力所在。而創造乙個產品,並不只是簡單的構想加上一般的製作。需要乙個團隊乙個集體,在接到乙個產品構思後通過乙個流程使產品生產成功並更具競爭力。創造...

第五章總結

5.1選單 選單是windows應用程式視窗的乙個非常重要的組成部分,視窗的選單欄一般在標題欄下面。這個選單通常稱為 主選單 5.1.1建立和程式設計選單 選單用於sdi 單文件介面 或mdi 多文件介面 以及基於對話方塊的應用程式,在基於對話方塊的應用程式中新建 設計並編輯選單後,在該對話方塊的 ...