資訊檢索模型與評估

2022-09-13 05:06:08 字數 1772 閱讀 6458

資訊檢索的前提是對資訊內容的索引提取,所謂的索引就是指用於標識資訊內容的項。建立資訊的索引的方法,通常可分為兩類:一種是手動定義索引,一種是自動獲取索引。而我們所要面臨的資料來源,既可能是模組化或結構化的語言,譬如html語言,又可能是非結構化的語言,譬如自然語言;既可能是與上下文相關的詞彙,又可能是與上下文無關的詞彙;既可能是乙個簡單的單詞又可能是乙個片語(這裡的資料來源前提假設為英文,對於中文的資訊檢索,由於已經存在成型的資訊檢索模型,如果要套用在中文資訊檢索中,需要進行中文分詞)

索引建立的關鍵問題是:我們通過什麼樣的方式來確定哪些單詞是可以用作索引的?我們可以選擇什麼樣的方法來標記出這些單詞?

對於資訊檢索的效果,我們可以通過兩個引數來進行量化參考:

召回率 與查詢專案相關的資訊的數量的估值

精確率 與查詢專案相關的資訊的精確程度的估值

當然,我們希望這兩個值越高越好,因此每個文件中的索引與對應的召回率和精確率的估值是我們所要關心的重點。

但是我們需要額外注意一下我們應該選取何種詞性的詞語選擇成為索引。 很顯然,譬如連詞、介詞等等這樣詞性的詞彙就應該盡量避免使用,而含有語義性的詞語則適合充當索引。

以下是集中建立資訊檢索模型的方法。

基於該模型建立的檢索索引,首先應避免考慮功能詞。即功能詞將不包含在計算的詞彙之中。

計算每個在文件d[i]中的出現單詞t[j]的單詞頻度(我在作業中使用的是頻率,遮蔽了單詞個數分布不均的情況,但可能會造成誤差。)tf[i,j]。即tf[i,j]的值為詞彙j在文件i**現的次數(或頻率)

選擇乙個閾值頻度(頻率),用於篩選出文件的高頻單詞。

這一步的工作主要是可以篩選出可以很好標識文件的索引項集合,通過篩選出的索引項,我們能夠從眾多文件中區分出我們所要找到的文件,可以保證檢索的召回率。當乙個詞彙的頻率在其他的文件中不高時,可以保證檢索的精確率。

但是我們通過頻度來進行衡量的話,會出現乙個問題,即單詞個數的分布不均,這樣會影響檢索結果的準確性。因此解決這個的辦法通常有兩個:乙個是規範化標準化(即可計算頻率),或者是新增另乙個引數,如反向文件頻率

對於詞彙j, 計算其反向文件頻率的公式如下:

\[idf_j = log\frac

\]此處定義df[j]為文件出現詞彙j的頻度。於是我們可以發現,當詞彙j僅僅存在於乙個文件中時,idf[j]的值最大,為log(n);當詞彙j存在於每乙個文件中時,idf[j] = 0。

換言之,idf值越高,其精確度也就越高。

於是我們可以計算詞彙j在文件i中的權值

\[w_ = tf_ \times idf_j

\]我們可以通過詞彙的權值來辨別出文件是否與之相關。而建立索引其中乙個關鍵的目的是在於能夠將文件區分開來。所以我們可以通過詞彙的權值來建立起文件的索引。

我們進一步總結和抽象,可以將乙個文件被描述為乙個存在於高維空間中的點。從這樣乙個觀點看過去,當在空間中兩個點非常相近,就說明這兩篇文件非常相似。如果乙個高頻索引詞彙沒有很好的在文件之間區分開,則會增長文件空間的空間密度。我們的目的是為了更好的將兩兩文件區分清楚,以增加檢索的精確度,因此我們所需解決的是如何區分好文件索引詞彙,使得文件空間密度不至於特別高。

我們定義詞彙區分度值為dv[j] = q - q[j] 用於標記詞彙j的區分度值。這裡的q是平均距離,q[j]是參考標記詞彙j之後的平均距離

\[q = \frac\sum^n_sim(d_i)sim(d_k)}

\]區分該詞彙是否是乙個好的索引主要通過dv[j]的大小來確定。如果dv[j]>0就表明詞彙j是乙個好的標識,如果dv[j]<0就表明詞彙j是乙個不好的標識。

另一種詞彙權值標記方法,定義文件i中的詞彙j的權值為w[i,j] = tf[i,j] * dv[j]

資訊檢索模型與評估

資訊檢索的前提是對資訊內容的索引提取,所謂的索引就是指用於標識資訊內容的項。建立資訊的索引的方法,通常可分為兩類 一種是手動定義索引,一種是自動獲取索引。而我們所要面臨的資料來源,既可能是模組化或結構化的語言,譬如html語言,又可能是非結構化的語言,譬如自然語言 既可能是與上下文相關的詞彙,又可能...

資訊檢索與排序模型之布林模型

在 學習布林模型之前首先讓我們了解一下模型的基本概念為後面的學習奠定基礎。模型是採用數學工具對現實世界某種事物或某種運動的抽象描述,面對相同的輸入,模型輸出應能夠無限地逼近現實世界的輸出 如 天氣預報模型 資訊檢索模型就是表示文件與使用者查詢以及查詢與文件的關係框架。下圖是常用的資訊檢索模型以及所支...

經典資訊檢索模型(一)

經典資訊檢索模型 一 一 布林模型 布林模型是基於集合理論和布林代數的一種簡單的檢索模型。由於集合的概念非常直觀,所以布林模型為資訊檢索系統的普通使用者提供了一種易於掌握的框架,此外,查詢被表示成有確切語義的布林表示式。由於布林模型內部簡單,形式簡潔,在過去的幾年的幾年引起了人們廣泛關注,並且在早期...