資訊檢索之文件評分 詞項權重計算及向量空間模型

2021-06-19 16:27:36 字數 2149 閱讀 1175

1、主要內容:

在文件規模很大的情況下,滿足布林查詢的結果文件數量可能非常多,往往會大大超過使用者能夠瀏覽的文件的數目。需要對搜尋出來的文件進行評分和排序。

①、引數化索引及域索引的概念;目的:1、可以通過元資料(文件的作者、標題、出版日期等)來對文件進行索引和檢索;2、上述索引能夠提供乙個簡單的文件評分;

②、詞項字在文件中的權重的概念,並通過期出現的統計資訊進行權重計算;

③、每篇文件被表示為上述權重計算結果的向量,通過它可以計算查詢和每篇文件的相似度。(向量空間方法);

④、向量空間模型中的權重計算的各種變形。

2、引數化索引及域索引:

①、元資料:指的是和文件有關的一些特定形式的資料,比如文件的作者、標題以及出版日期等等;

②、字段:元資料報含字段資訊,如文件的建立日期、文件的格式、作者的資訊,其取值通常是有限的。有點類似資料庫中表中的字段(屬性);

③、引數化索引:對每個字段(比如文件的建立時間)都存在乙個與之對應的引數化索引,通過它我們只會選擇在時間欄位上滿足查詢需求的文件;

④、域索引:域可以是由任意的、數目無限制的文字組成。比如,吧文件的標題和摘要當做域。可以對文件的不同域建立索引。引數化索引,詞典常常來自固定的詞彙表,但是在域索引中,詞典來自域中自由文字的所有詞彙。

圖6-2

經過編碼後:

圖6-3

⑤、域加權平均:給定一系列文件,嘉定每篇文件有l個域,其對應的權重分別是g1,g2,g3……gl∈[0,1],並且滿足其和為1。令si未查詢和文件的第i個域的匹配得分(1:匹配,0:未匹配)。則域加權評分方法可以定義為:

這裡的關鍵在於計算出該文件的得分。

⑥、權重學習:

訓練樣本的誤差函式為:

這是乙個二次規劃問題,可參見

《數學規劃》第5章,約束規劃部分。

⑦、詞項頻率及權重計算:

提出問題:溫昂中所有詞項的重要性是一樣的嗎?

核心思想:將文件頻率(df

t,表示出現詞項t的所有文件數目)高的賦予較低的權重。越是經常出現的詞彙其價值越小,比如說停用詞。使用逆文件頻率來表示。

逆文件頻率:idf

t=log(n/df

t)。其中n為總的文件數。

詞項頻率:詞項t在文件d中出現的次數,記為tf

t,d。

權重計算:tf-idf

t,d=tf

t,d×idf t

1、當t只在少數幾篇文件中多次出現時,權重取值最大,此時能夠對這些文件提供最強的區分能力;

2、當t在一篇文件中出現次數很少,或者在很多文件中出現,權重取值次之,此時對最後的相關度計算作用不大;

3、如果t在所有文件中都出現,那麼權重取值最小。

⑧、向量空間模型(vsm):

是資訊檢索領域一系列相關處理的基礎,比如文件的評分、文件的分類和聚類等。(可看《集體智慧型程式設計》第六章 文件過濾和《機器學習實戰》第四章 基於概率論的分類方法:樸素貝葉斯 中從文字中構建詞向量p58)

使用 下面有乙個示例:

圖6-12

⑨、查詢向量:

示例6-4:

⑩向量相似度計算演算法如下圖:

圖6-14

對於最後一步,求得最高的k個得分,可以使用二項堆來實現,見《

演算法導論》第19章 二項堆。

還有其他的方法計算tf-idf權重,如tf的亞現行尺度變換方法,基於最大值的tf歸一化等;

問題:在實際的計算中,相似度都是數萬維的向量的內積計算,計算量大。

資訊檢索之布林檢索

1 倒排索引的兩部分 圖 1 3 2 構建倒排索引的過程 收集需要建立索引的文件 將每篇文件轉換成乙個個詞條的列表,這個過程成為詞條化 第二章 進行語言學處理,產生歸一化的詞條來作為詞項 第三章 對所有文件按照其中出現的詞項來建立倒排索引,索引中包括一部詞典 存於記憶體 和乙個全體倒排索引表 存於磁...

新手學資訊檢索3 詞頻 逆文件頻

首先,什麼是詞頻?詞頻就是一篇文件包含乙個詞的次數。舉個例子,如果一篇文件d中 cat 這個詞出現了5詞,那麼我們就說 cat 的詞頻為5,記做tf cat 5。那麼,什麼是文件頻?這個概念也是對於乙個詞來說的。通俗來說文件頻就是包含乙個詞的文件數目。那麼什麼叫做逆文件頻呢?idf表示逆文件頻,檢索...

跨文件資訊傳遞之localStorage本地儲存

2011 12 29 15 51 發布者 admin 檢視 5515 摘要 cookie在web中得到廣泛應用,但侷限性非常明顯,容量太小,有些站點會因為出於安全的考慮而禁用cookie,cookie沒有想象中的那麼安全。flash sharedobject使 用的是kissy的store模組來呼叫...