之前我們講的都是給定查詢後,精確返回前k篇得分最高的文件的方法。這裡,我們主要關注產生「可能」排名最高的k篇文件的方法。這樣的目的在於,顯著降低輸出前k篇文件所需要的計算複雜度。
計算前k篇得分最高文件的主要開銷**於大量文件都參與的余弦相似度計算,下面介紹一些非精確返回前k篇文件的一系列啟發式策略。
非精確返回前k篇文件的方法:
乙個完整的資訊檢索系統,不僅支援向量空間模型(向量空間模型評分方法),也支援其他的查詢操作符和檢索形式。
1.非精確返回前k篇文件–>層次型索引
用索引去除等啟發式方法來非精確返回前k篇文件時,可能會出現得到的候選集合a中元素個數小於k的情況。通常的解決方法是用層次型索引。例如,以tf為標準設定2個閾值:10、20。第1層索引只保留tf>20的倒排記錄,而第2層只保留tf>10的倒排記錄。
2. 查詢詞項的鄰近性
在檢索中,我們往往希望返回的文件中,大部分或全部查詢詞項之間的距離較近。假設有乙個由多個查詢詞項構成的查詢t1
,t2,
...,
tkt 1,
t2,.
..,t
k。文件d中包含所有查詢詞項的最小視窗大小記為w,w取值為視窗內詞的個數。直觀上,w越小,文件d和查詢匹配的程度就越高。
這種基於鄰近關係程度w的加權評分函式和純余弦相似度計算方法有所不同。
3. 乙個完整搜尋系統的組成
向量空間模型一般只支援自由文字查詢,那它支援其他查詢麼?如布林查詢.
1.將向量空間模型和布林查詢融合不容易。
2.萬用字元查詢和向量空間查詢需要不同的索引結構來完成。
3.向量空間模型不能用於短語查詢,因為向量空間模型丟失了詞項順序資訊。
第七章 乙個完整搜尋系統中的評分計算
思想 把查詢向量看成是1,1,1,1,這樣的話,計算query和文件d的余弦相似度時,只需要累加文件d的權重即可 思想 1 先找乙個文件集合a 條件是包含很多和前k偏文件得分相近的文件 k a 思想 1 在倒排中查詢字典時,詞項idf值超過一定閥值的文件被留下 小於閥值的文件將忽略掉。自己考慮好處?...
第七章 使用語言 乙個擴充套件的示例
一 隔離領域 引入應用層 為防止領域職責與系統的其它部分混雜在一起,我們應用layered architecture把領域層劃分出來。不同的功能分配給不同的應用層類。這些應用層類是協調者,它們只負責提問,不負責回答,回答是領域層的工作。二 將entity和value object區別開 依次考慮每個...
WCF 第七章 寄宿 在乙個程序中寄宿多個服務
將應用程式功能聚集到正確的服務層次是系統設計的乙個必須元素。建立乙個有很多介面的系統,這個系統也會變得很令人迷惑。建立只有很多介面的乙個系統,這個系統會是變成乙個很難改變的整體。在第二章 契約 我們描述了如何將多個類介面整合到乙個單一的終結點中。這是通過.net介面整合完成的。我們也描述了如何在乙個...