搜尋引擎如何計算權重

讀者可能已經發現了又乙個漏洞。在上面的例子中，詞「的」站了總詞頻的 80% 以上，而它對確定網頁的主題幾乎沒有用。我們稱這種詞叫「應刪除詞」（stopwords)，也就是說在度量相關性是不應考慮它們的頻率。在漢語中，應刪除詞還有「是」、「和」、「中」、「地」、「得」等等幾十個。忽略這些應刪除詞後，上述網頁的相似度就變成了0.007，其中「原子能」貢獻了 0.002，「應用」貢獻了 0.005。

細心的讀者可能還會發現另乙個小的漏洞。在漢語中，「應用」是個很通用的詞，而「原子能」是個很專業的詞，後者在相關性排名中比前者重要。因此我們需要給漢語中的每乙個詞給乙個權重，這個權重的設定必須滿足下面兩個條件：

則只有 0.7。也就只說，在網頁中找到乙個「原子能」的比配相當於找到九個「應用」的匹配。利用 idf，上述相關性計算個公式就由詞頻的簡單求和變成了加權求和，即 tf1*idf1 +　tf2*idf2 ＋… + tfn*idfn。在上面的例子中，該網頁和「原子能的應用」的相關性為 0.0161，其中「原子能」貢獻了 0.0126，而「應用」只貢獻了0.0035。這個比例和我們的直覺比較一致了。

搜尋引擎如何計算權重

如何使用搜尋引擎

搜尋引擎索引

MySQL搜尋引擎程式 mysql搜尋引擎

搜尋引擎如何計算權重

如何使用搜尋引擎

搜尋引擎 索引

MySQL搜尋引擎程式 mysql搜尋引擎

相關推薦

搜尋引擎索引