、如何建立索引
、如何衡量網頁的質量
(page rank)。我們今天談談如何確定乙個網頁和某個查詢的相關性。了解了這四個方面,乙個有一定程式設計基礎的讀者應該可以寫乙個簡單的搜尋引擎了,比如為您所在的學校或院系建立乙個小的搜尋引擎。]
我們還是看上回的例子,查詢關於「原子能的應用」的網頁。我們第一步是在索引中找到包含這三個詞的網頁(詳見關於布林運算
)。這樣,資訊檢索相關性的度量,又回到了資訊理論。
現在的搜尋引擎對 tf/idf 進行了不少細微的優化,使得相關性的度量更加準確了。當然,對有興趣寫乙個搜尋引擎的愛好者來講,使用 tf/idf 就足夠了。 如果我們結合上網頁排名(page rank),那麼給定乙個查詢,有關網頁綜合排名大致由相關性和網頁排名乘積決定。
如何確定網頁和查詢的相關性
2006年6月27日 上午 09 53 00 發表者 吳軍,google 研究員 我們已經談過了 如何建立索引 如何衡量網頁的質量 page rank 我們今天談談如何確定乙個網頁和某個查詢的相關性。了解了這四個方面,乙個有一定程式設計基礎的讀者應該可以寫乙個簡單的搜尋引擎了,比如為您所在的學校或院...
數學之美 系列九 如何確定網頁和查詢的相關性
2006年6月27日 上午 09 53 00 發表者 吳軍,google 研究員 我們還是看上回的例子,查詢關於 原子能的應用 的網頁。我們第一步是在索引中找到包含這三個詞的網頁 詳見關於布林運算的系列 現在任何乙個搜尋引擎 都包含幾十萬甚至是上百萬個多少有點關係的網頁。那麼哪個應該排在前面呢?顯然...
數學之美 系列九 如何確定網頁和查詢的相關性
數學之美 系列九 如何確定網頁和查詢的相關性 我們已經談過了 如何建立索引 如何衡量網頁的質量 page rank 我們今天談談如何確定乙個網頁和某個查詢的相關性。了解了這四個方面,乙個有一定程式設計基礎的讀者應該可以寫乙個簡單的搜尋引擎了,比如為您所在的學校或院系建立乙個小的搜尋引擎。我們還是看上...