資訊檢索導論 第一章 布林檢索 學習筆記

2021-06-06 19:04:44 字數 876 閱讀 9316

名稱上看,「倒排」二字顯然有些多餘,因為一般提到的索引都是從詞項(item)反向對映到文件的。但是倒排索引已成為資訊檢索中的乙個標準術語。

(1)收集需要建立索引的文件

(2)將每篇文件換成乙個個詞條列表,此過程稱為詞條化

(3)進行語言學預處理,產生歸一化的詞條來作為詞項

(4)對所有文件按照其中出現的詞項來建立倒排索引,索引中包含一部詞典和乙個全體倒排記錄表

考慮「與」操作,brutus and caesar and calpurnia。

我們可以按照詞項的文件頻率,從小到大依次處理,也就是每次求最短的倒排記錄的交集,這樣可以減少很多操作。這也是我們第一次用到了詞項的文件頻率,這也給出了在詞典中儲存文件頻率的乙個充分理由,即它可以在訪問之前用於決定倒排記錄表的訪問順序。

這樣就會涉及到中間結果的概念,中間結果是臨時儲存中間表示式的結果,而倒排記錄表往往是儲存在磁碟上的。中間結果往往比與之相比較的倒排記錄表的長度相差乙個甚至多個數量級,這種情況下,我們可以通過在長倒排記錄表中對中間結果表中的每個元素進行二分查詢,也可以實現合併(求交集)。另一種方法,是將長倒排記錄表用雜湊方式儲存,這樣對中間結果的每個元素,就可以通過常數時間而不是線性時間或者對數時間實現查詢。

上述策略很難適應於第5章所討論的壓縮後的倒排記錄表中,另外,如果查詢中的兩個詞項都是常見詞時,那麼還是有必要採用標準的倒排記錄表合併方法。

通過分配律將查詢式寫成析取正規化,也能提高查詢速度。

第一章 布林檢索模型

布林檢索模型接受布林表示式查詢,即通過and or及not等邏輯操作符捋詞項連線起來的查詢.grepping的定義。假如你想知道 沙士比亞全集 中包含brutus和caesar但不包含calpurnia.一種辦法就是從頭到尾閱讀這本全集,對每部劇本都要留心包含brutus和caesar但不包含cal...

第一章 導論

c 是物件導向的高階語言,將客觀事物都看作物件,將同類物件進行抽象,形成類,類封裝起來只暴露介面,符合人類的思維方式。用源語言寫的,有待翻譯的程式 源程式通過翻譯程式加工以後生成的機器語言程式 連線目標程式以及庫中的某些檔案,生成乙個可執行檔案 加一位,0表示正,1表示負,符號絕對值表示的編碼,但是...

第一章 布林邏輯

一 背景,一些概念 0 布林代數 1 邏輯門 2 基本布林運算元 and or not 3 結論 每個布林函式不管有多複雜,都可以只使用三個布林運算元進行表達 4 門 是用來實現布林函式的物理裝置。最簡單的門由微笑的開關裝置 電晶體 transistors 構成,這些微小開關按照設計的拓補結構進行連...