1、倒排索引的兩部分
圖 1-3
2、構建倒排索引的過程
①收集需要建立索引的文件;
②將每篇文件轉換成乙個個詞條的列表,這個過程成為詞條化;
(第二章)
③進行語言學處理,產生歸一化的詞條來作為詞項;
(第三章)
④對所有文件按照其中出現的詞項來建立倒排索引,索引中包括一部詞典(存於記憶體)和乙個全體倒排索引表(存於磁碟)。
(第四章)
圖1-4
3、倒排索引的詞典和倒排索引都有儲存開銷,可以通過儲存優化的策略來提高訪問效率。
4、每個倒排記錄表的資料結構式:
①單鏈表: 便於文件的插入和更新(比如,對更新的網頁進行重新的採集)(跳表實現);
②變長陣列:節省空間,並且採用連續的記憶體儲存,可以充分利用現代計算機的快取(cache)奇數來提高訪問速度。在索引更新不頻繁的情況下,在空間商表現的更加的緊湊,遍歷也更快。
③定長陣列的鍊錶方式。
5、
6、有序檢索:臨近操作符用於制定查詢的兩個詞項應該在文件中互相靠近,靠近成都通常採用兩者之間詞的個數或者是否同在某個結構單元中出現來衡量。
7、提出問題:
①更豐富的查詢模型;
②用於高效查詢處理的增強的索引結構
1、容忍拼寫錯誤及當查詢和文件中詞語表達不一致時的檢索方法;
2、能夠檢索複合詞或者短語,比如(operating system);
3、根據詞項頻率(詞項在文件中出現的次數)來得到文件的相關度;
4、對返回的結果進行排名;
8、不同的搜尋引擎的索引和查詢奇數都基本上一致。web搜尋引擎增加了擴充套件布林模型的一部分操作,其終端與查詢非常流行。
資訊檢索技術 布林檢索
今天先介紹最簡單的資訊檢索技術,布林檢索。資訊檢索 ir 通俗的講,就是要在乙個很大的文字 有時可能是其他資料,如影象等 集合中,找到與使用者需求相關的可以滿足使用者需求的非結構化資訊。聽起來有點拗口,其實就是一種查詢,只不過查詢的物件是非結構化資訊,和查詢資料庫中的表並不相同。希望這麼說能好理解一...
資訊檢索與排序模型之布林模型
在 學習布林模型之前首先讓我們了解一下模型的基本概念為後面的學習奠定基礎。模型是採用數學工具對現實世界某種事物或某種運動的抽象描述,面對相同的輸入,模型輸出應能夠無限地逼近現實世界的輸出 如 天氣預報模型 資訊檢索模型就是表示文件與使用者查詢以及查詢與文件的關係框架。下圖是常用的資訊檢索模型以及所支...
《Introduce to IR》布林檢索模型
該系列文章是 an introduce to information retrieval chapter 1 的讀書筆記。ir的概念很廣泛,即使從錢包中拿出一張信用卡並輸入卡號也是一種形式的資訊檢索。在學術領域,我們這樣定義ir 資訊檢索 ir 就是一種從大量資料集合中 通常指儲存在計算機中文件 尋...