思想:把查詢向量看成是1,<1,1,1,..>,這樣的話,計算query和文件d的余弦相似度時,只需要累加文件d的權重即可
思想:1)先找乙個文件集合a;條件是包含很多和前k偏文件得分相近的文件;k<|a|《思想:
1)在倒排中查詢字典時,詞項idf值超過一定閥值的文件被留下;小於閥值的文件將忽略掉。自己考慮好處?
2)只留下包含多個查詢詞項的文件;
這樣的話,可以把倒排索引中的很多拉鍊資料過濾掉。也就是所說的索引去除技術;
champion list (同義:fancy list ; top doc)
思想: 對於詞典中的每個詞項term,預先計算前r個最高權重的文件; 使用時,也就是這些文件參與相似度計算;
static quality score: 靜態質量得分 簡稱:靜態得分
資訊檢索導論 第七章 乙個完整搜尋系統中的評分計算
之前我們講的都是給定查詢後,精確返回前k篇得分最高的文件的方法。這裡,我們主要關注產生 可能 排名最高的k篇文件的方法。這樣的目的在於,顯著降低輸出前k篇文件所需要的計算複雜度。計算前k篇得分最高文件的主要開銷 於大量文件都參與的余弦相似度計算,下面介紹一些非精確返回前k篇文件的一系列啟發式策略。非...
第七章 使用語言 乙個擴充套件的示例
一 隔離領域 引入應用層 為防止領域職責與系統的其它部分混雜在一起,我們應用layered architecture把領域層劃分出來。不同的功能分配給不同的應用層類。這些應用層類是協調者,它們只負責提問,不負責回答,回答是領域層的工作。二 將entity和value object區別開 依次考慮每個...
WCF 第七章 寄宿 在乙個程序中寄宿多個服務
將應用程式功能聚集到正確的服務層次是系統設計的乙個必須元素。建立乙個有很多介面的系統,這個系統也會變得很令人迷惑。建立只有很多介面的乙個系統,這個系統會是變成乙個很難改變的整體。在第二章 契約 我們描述了如何將多個類介面整合到乙個單一的終結點中。這是通過.net介面整合完成的。我們也描述了如何在乙個...