搜尋引擎的分析 檢索結果個數分析

2021-04-02 05:49:49 字數 1411 閱讀 8564

這個時間僅僅指的是「google」這個關鍵字在索引中找到「所有」的文章編號所花費的時間。

那個檢索文章屬性的時間如何來衡量呢?通常搜尋引擎的做法是迴避這個問題,畢竟這個問題並不會對使用者造成什麼明顯的感覺。搜尋引擎的這個做法是合理的。但是對於搜尋引擎得設計者來說,這個問題就變得非常關鍵了,因為當很多人使用這個搜尋引擎的時候,這個部分對系統的資源占用是最大的因素之一(對於乙個不是分布式的搜尋引擎來說,網路頻寬也是瓶頸之一,相反,cpu的佔用率倒不是瓶頸,呵呵,挺怪的)。

這個時候,我們就可以理解了,為什麼搜尋引擎不能像資料庫的介面一樣(比如檢索的結果分成50頁,可以直接跳轉到指定的頁面了,比如直接跳轉到32頁)。

如果我們一定要直接跳轉呢?搜尋引擎又會如何相應呢?

我們對google進行了分析:

例如:我在google檢索「車友」,google返回

「約有2,750,000項符合車友的查詢結果,以下是第1-20項。 (搜尋用時 0.09 秒)」

然後我直接在ie的位址列中敲入「

」,注意這裡的start=2000就是直接讓google跳轉到第2000個返回結果,相當如資料的直接翻頁。google返回

「對不起,google 為所有查詢的結果數都不會超過 1000 個。 (您所請求的結果在第 2000 個之後。)」

我們又對baidu進行了分析

我們直接在ie的位址列

中敲入「

」,注意這裡的pn=10000也相當於直接跳頁,baidu返回了是第76頁的結果(我設定的每一頁10個結果),也就是總共760個結果。

我們又對search@msn進行了分析

我們直接在ie的位址列中敲入"http://search.msn.com/results.aspx?q=google&first=10000&form=pere

",注意這裡的first=10000也相當於直接跳頁,msn返回的不是1000頁的結果,而是第25頁的結果。

怎麼樣?是不是了解了一點?其它的搜尋引擎要不要你自己試一試看??

我們又對search@msn進行了分析

我們直接在ie的位址列中敲入"http://search.msn.com/results.aspx?q=google&first=10000&form=pere

",注意這裡的first=10000也相當於直接跳頁,msn返回的不是1000頁的結果,而是第25頁的結果。

怎麼樣?是不是了解了一點?其它的搜尋引擎要不要你自己試一試看??

Nutch搜尋引擎分析

quote 一 系統架構 總體上nutch可以分為2個部分 抓取部分和搜尋部分。抓取程式抓取頁面並把抓取回來的資料做成反向索引,搜尋程式則對反向索引搜尋回答使用者的請求。抓取程式和搜尋程式的介面是索引,兩者都使用索引中的字段。抓取程式和搜尋程式可以分別位於不同的機器上。下面詳細介紹一下抓取部分。抓取...

搜尋引擎檢索技術

謝海勸 如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系...

搜尋引擎檢索技術

如此簡單的乙個輸入框 搜尋按鈕,卻可以實現如此神奇的一站式搜尋服務,為使用者提供豐富 準確的資訊,這要歸功於乙個強勁的後台引擎。使用者可曾想過,這麼簡單的行為,後台引擎可能會有成千上萬臺機器在為你服務。搜尋引擎就像一台高效運轉的發動機,不停響應使用者的請求,輸出使用者想要的資訊。高效的檢索系統需要提...