當我們在搜尋引擎上鍵入片語進行搜尋時可能並沒有想過,它是如何把我們想要的資料在那麼短的時間內找出來。事實上幾乎所有的搜尋引擎都會有下列的功能以保證它能夠又好又快的為我們提供資料。
1,爬行整個web(crawling web)
搜尋引擎自動執行的程式通過web的超級鏈結(hyperlink)結構爬行整個web上的所有網頁文件。這種程式通常被稱做嗅控程式(bots)或爬行程式(spider)。
2,收錄文件(index document)
當程式爬每行過乙個網頁文件時,文件的內容可能被搜尋引擎收錄(或稱索引,index),儲存在乙個巨大的資料庫中,從而組成搜尋引擎的索引。當然了這些索引必須組織的非常好(到於如何實現我就不知道了,呵呵),這樣當我們在搜尋引擎進行搜尋時,搜尋引擎能夠快速的眾索引中找出我們要的資訊。所以,如果你認為你在搜尋引擎那邊搜尋時,搜尋引擎才對整個巨大的web進行搜尋是不可能的。
3,處理查詢(processing queries)
當搜尋引擎收到乙個搜尋請求(一天可能有上億個這樣的請求),搜尋引擎會檢索它構建起來的索引來查詢匹配查詢的文件。它是以文件中是否出現以使用者指定的形式出現的詞語或短語。比如我們搜尋car and driver magazine和「car and driver magazine」,前者在google會返回很多的結果,而後者只有幾萬個。因為前乙個搜尋通常被認為是查詢所有的模式,google會返回所有內容中包含有car,driver,magazine的文件,而後者則指定了要以car and driver magazine這個片語的形式出現的文件才會被返回。事實上google有乙個操作符列表 ,這些操作符可以用來幫我們更精確的查詢資料,過濾掉一些結果。
4,對查詢結果分級(ranking result)
一旦搜尋引擎決定返回哪些結果作為匹配查詢的結果時,搜尋引擎會對所有準備返回的結果應用演算法進行計算以決定各個結果是與使用者的查詢內容的匹配程度(或精確度吧),然後排序,當然是把最接近的結果放在前面這樣使用者就不要自己選了。
搜尋引擎工作原理
搜尋引擎優化的主要任務之一就是提高 的搜尋引擎友好性,因此,搜尋引擎優化的每乙個環節都會與搜尋引擎工作流程存在必然的聯絡,研究搜尋引擎優化實際上就是對搜尋引擎工作過程進行逆向推理。因此,學習搜尋引擎優化應該從了解搜尋引擎的工作原理開始。搜尋引擎的主要工作包括 頁面收錄 頁面分析 頁面排序 及 關鍵字...
搜尋引擎工作原理
搜尋引擎工作原理 爬行和抓取 預處理 排名 爬行和抓取 1,是通過蛛蛛程式來實現的,蛛蛛主要是通過鏈結來抓取所有頁面的.所以要想讓蛛蛛盡量的抓取頁面,必須要吸引蛛蛛 優化 2,為了避免重複爬行和抓取 搜尋引擎建立了乙個位址庫用來儲存已經抓取的頁面 位址庫中的url 大多數是蛛蛛獲取到的,當然也有一些...
搜尋引擎工作原理
你剛才在 上買了一件東西 在首頁搜尋框中輸入 毛衣 二字並按回車鍵,這時你又產生了乙個pv,然後,網的主搜尋系統便開始為你服務,它首先對你輸入的內容基於乙個分詞庫進行分詞操作。眾所周知,英文是以詞為單位的,詞和詞之間靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子...