在
學習布林模型之前首先讓我們了解一下模型的基本概念為後面的學習奠定基礎。模型是採用數學工具對現實世界某種事物或某種運動的抽象描述,面對相同的輸入,模型輸出應能夠無限地逼近現實世界的輸出(如:天氣預報模型)。 資訊檢索模型就是表示文件與使用者查詢以及查詢與文件的關係框架。下圖是常用的資訊檢索模型以及所支撐其的相關數學背景。
資訊檢索模型以及支撐的數學背景
資訊檢索模型以及支撐的數學背景
布林模型描述:
文件(用d表示)—— 乙個文件被表示為關鍵字的集合;
舉例下面有2個文件:
文件1:a b c f g h;
文件2:a f b x y z;
使用者想找出出現a或者b但一定要出現z的文件。當然我們仔細一看,結果顯而易見是文件2符合使用者的需求。但是對於計算機布林排序模型它是怎麼實現的呢 ?
將查詢表示為布林表示式q=(a∨b) ∧z,並轉換成析取正規化qdnf=(1, 0,1) ∨(0,1,1) ∨(1,1,1);
文件1和文件2的三元組對應值分別為(1,1,0)和(1,1,1);
經過匹配,將文件2返回;
布林模型的優點:
通過使用複雜的布林表示式,可以很方便地控制查詢結果,經過某種訓練的使用者可以容易地寫出布林查詢表示式;
相當有效的實現方法,相當於識別包含了乙個某個特定term的文件式;
布林模型問題:
不支援部分匹配,而完全匹配會導致太多或者太少的,非常剛性: ―與」意味著全部; ―或」意味著任何乙個;
很難控制被檢索的文件數量原則上講,所有被匹配的文件都將被返回;
很難對輸出進行排序;
如果一篇文件被使用者確認為相關或者不相怎樣,相應地修改查詢式呢。
《Introduce to IR》布林檢索模型
該系列文章是 an introduce to information retrieval chapter 1 的讀書筆記。ir的概念很廣泛,即使從錢包中拿出一張信用卡並輸入卡號也是一種形式的資訊檢索。在學術領域,我們這樣定義ir 資訊檢索 ir 就是一種從大量資料集合中 通常指儲存在計算機中文件 尋...
資訊檢索之布林檢索
1 倒排索引的兩部分 圖 1 3 2 構建倒排索引的過程 收集需要建立索引的文件 將每篇文件轉換成乙個個詞條的列表,這個過程成為詞條化 第二章 進行語言學處理,產生歸一化的詞條來作為詞項 第三章 對所有文件按照其中出現的詞項來建立倒排索引,索引中包括一部詞典 存於記憶體 和乙個全體倒排索引表 存於磁...
資訊檢索模型與評估
資訊檢索的前提是對資訊內容的索引提取,所謂的索引就是指用於標識資訊內容的項。建立資訊的索引的方法,通常可分為兩類 一種是手動定義索引,一種是自動獲取索引。而我們所要面臨的資料來源,既可能是模組化或結構化的語言,譬如html語言,又可能是非結構化的語言,譬如自然語言 既可能是與上下文相關的詞彙,又可能...