資訊檢索導論第七章乙個完整搜尋系統中的評分計算

之前我們講的都是給定查詢後，精確返回前k篇得分最高的文件的方法。這裡，我們主要關注產生「可能」排名最高的k篇文件的方法。這樣的目的在於，顯著降低輸出前k篇文件所需要的計算複雜度。

計算前k篇得分最高文件的主要開銷**於大量文件都參與的余弦相似度計算，下面介紹一些非精確返回前k篇文件的一系列啟發式策略。

非精確返回前k篇文件的方法：

乙個完整的資訊檢索系統，不僅支援向量空間模型(向量空間模型評分方法)，也支援其他的查詢操作符和檢索形式。

1.非精確返回前k篇文件–>層次型索引

用索引去除等啟發式方法來非精確返回前k篇文件時，可能會出現得到的候選集合a中元素個數小於k的情況。通常的解決方法是用層次型索引。例如，以tf為標準設定2個閾值:10、20。第1層索引只保留tf>20的倒排記錄，而第2層只保留tf>10的倒排記錄。

2. 查詢詞項的鄰近性

在檢索中，我們往往希望返回的文件中，大部分或全部查詢詞項之間的距離較近。假設有乙個由多個查詢詞項構成的查詢t1

,t2,

...,

tkt 1,

t2,.

..,t

k。文件d中包含所有查詢詞項的最小視窗大小記為w，w取值為視窗內詞的個數。直觀上，w越小，文件d和查詢匹配的程度就越高。

這種基於鄰近關係程度w的加權評分函式和純余弦相似度計算方法有所不同。

3. 乙個完整搜尋系統的組成

向量空間模型一般只支援自由文字查詢，那它支援其他查詢麼？如布林查詢.

1.將向量空間模型和布林查詢融合不容易。

2.萬用字元查詢和向量空間查詢需要不同的索引結構來完成。

3.向量空間模型不能用於短語查詢，因為向量空間模型丟失了詞項順序資訊。

第七章乙個完整搜尋系統中的評分計算

思想把查詢向量看成是1,1,1,1,這樣的話，計算query和文件d的余弦相似度時，只需要累加文件d的權重即可思想 1 先找乙個文件集合a 條件是包含很多和前k偏文件得分相近的文件 k a 思想 1 在倒排中查詢字典時，詞項idf值超過一定閥值的文件被留下小於閥值的文件將忽略掉。自己考慮好處？...

第七章使用語言乙個擴充套件的示例

一隔離領域引入應用層為防止領域職責與系統的其它部分混雜在一起，我們應用layered architecture把領域層劃分出來。不同的功能分配給不同的應用層類。這些應用層類是協調者，它們只負責提問，不負責回答，回答是領域層的工作。二將entity和value object區別開依次考慮每個...

WCF 第七章寄宿在乙個程序中寄宿多個服務

將應用程式功能聚集到正確的服務層次是系統設計的乙個必須元素。建立乙個有很多介面的系統，這個系統也會變得很令人迷惑。建立只有很多介面的乙個系統，這個系統會是變成乙個很難改變的整體。在第二章契約我們描述了如何將多個類介面整合到乙個單一的終結點中。這是通過.net介面整合完成的。我們也描述了如何在乙個...

資訊檢索導論 第七章 乙個完整搜尋系統中的評分計算

第七章 乙個完整搜尋系統中的評分計算

第七章 使用語言 乙個擴充套件的示例

WCF 第七章 寄宿 在乙個程序中寄宿多個服務

相關推薦

資訊檢索導論第七章乙個完整搜尋系統中的評分計算

第七章乙個完整搜尋系統中的評分計算

第七章使用語言乙個擴充套件的示例

WCF 第七章寄宿在乙個程序中寄宿多個服務