1、主要內容:
在文件規模很大的情況下,滿足布林查詢的結果文件數量可能非常多,往往會大大超過使用者能夠瀏覽的文件的數目。需要對搜尋出來的文件進行評分和排序。
①、引數化索引及域索引的概念;目的:1、可以通過元資料(文件的作者、標題、出版日期等)來對文件進行索引和檢索;2、上述索引能夠提供乙個簡單的文件評分;
②、詞項字在文件中的權重的概念,並通過期出現的統計資訊進行權重計算;
③、每篇文件被表示為上述權重計算結果的向量,通過它可以計算查詢和每篇文件的相似度。(向量空間方法);
④、向量空間模型中的權重計算的各種變形。
2、引數化索引及域索引:
①、元資料:指的是和文件有關的一些特定形式的資料,比如文件的作者、標題以及出版日期等等;
②、字段:元資料報含字段資訊,如文件的建立日期、文件的格式、作者的資訊,其取值通常是有限的。有點類似資料庫中表中的字段(屬性);
③、引數化索引:對每個字段(比如文件的建立時間)都存在乙個與之對應的引數化索引,通過它我們只會選擇在時間欄位上滿足查詢需求的文件;
④、域索引:域可以是由任意的、數目無限制的文字組成。比如,吧文件的標題和摘要當做域。可以對文件的不同域建立索引。引數化索引,詞典常常來自固定的詞彙表,但是在域索引中,詞典來自域中自由文字的所有詞彙。
圖6-2
經過編碼後:
圖6-3
⑤、域加權平均:給定一系列文件,嘉定每篇文件有l個域,其對應的權重分別是g1,g2,g3……gl∈[0,1],並且滿足其和為1。令si未查詢和文件的第i個域的匹配得分(1:匹配,0:未匹配)。則域加權評分方法可以定義為:
這裡的關鍵在於計算出該文件的得分。
⑥、權重學習:
訓練樣本的誤差函式為:
這是乙個二次規劃問題,可參見
《數學規劃》第5章,約束規劃部分。
⑦、詞項頻率及權重計算:
提出問題:溫昂中所有詞項的重要性是一樣的嗎?
核心思想:將文件頻率(df
t,表示出現詞項t的所有文件數目)高的賦予較低的權重。越是經常出現的詞彙其價值越小,比如說停用詞。使用逆文件頻率來表示。
逆文件頻率:idf
t=log(n/df
t)。其中n為總的文件數。
詞項頻率:詞項t在文件d中出現的次數,記為tf
t,d。
權重計算:tf-idf
t,d=tf
t,d×idf t
1、當t只在少數幾篇文件中多次出現時,權重取值最大,此時能夠對這些文件提供最強的區分能力;
2、當t在一篇文件中出現次數很少,或者在很多文件中出現,權重取值次之,此時對最後的相關度計算作用不大;
3、如果t在所有文件中都出現,那麼權重取值最小。
⑧、向量空間模型(vsm):
是資訊檢索領域一系列相關處理的基礎,比如文件的評分、文件的分類和聚類等。(可看《集體智慧型程式設計》第六章 文件過濾和《機器學習實戰》第四章 基於概率論的分類方法:樸素貝葉斯 中從文字中構建詞向量p58)
使用 下面有乙個示例:
圖6-12
⑨、查詢向量:
示例6-4:
⑩向量相似度計算演算法如下圖:
圖6-14
對於最後一步,求得最高的k個得分,可以使用二項堆來實現,見《
演算法導論》第19章 二項堆。
還有其他的方法計算tf-idf權重,如tf的亞現行尺度變換方法,基於最大值的tf歸一化等;
問題:在實際的計算中,相似度都是數萬維的向量的內積計算,計算量大。
資訊檢索之布林檢索
1 倒排索引的兩部分 圖 1 3 2 構建倒排索引的過程 收集需要建立索引的文件 將每篇文件轉換成乙個個詞條的列表,這個過程成為詞條化 第二章 進行語言學處理,產生歸一化的詞條來作為詞項 第三章 對所有文件按照其中出現的詞項來建立倒排索引,索引中包括一部詞典 存於記憶體 和乙個全體倒排索引表 存於磁...
新手學資訊檢索3 詞頻 逆文件頻
首先,什麼是詞頻?詞頻就是一篇文件包含乙個詞的次數。舉個例子,如果一篇文件d中 cat 這個詞出現了5詞,那麼我們就說 cat 的詞頻為5,記做tf cat 5。那麼,什麼是文件頻?這個概念也是對於乙個詞來說的。通俗來說文件頻就是包含乙個詞的文件數目。那麼什麼叫做逆文件頻呢?idf表示逆文件頻,檢索...
跨文件資訊傳遞之localStorage本地儲存
2011 12 29 15 51 發布者 admin 檢視 5515 摘要 cookie在web中得到廣泛應用,但侷限性非常明顯,容量太小,有些站點會因為出於安全的考慮而禁用cookie,cookie沒有想象中的那麼安全。flash sharedobject使 用的是kissy的store模組來呼叫...