今天開始講排名,上次說到經過倒排索引,每乙個關鍵詞對應一系列的頁面,使用者在搜尋時填入關鍵詞後,排名程式就呼叫它,計算排名再顯示給使用者,排名過程是與使用者直接互動的。搜尋引擎接收到使用者輸入的搜尋詞,需要對搜尋詞做一些處理,才能進入排名過程。這裡有乙個過程跟之前的頁面索引是一樣的,那就是中文分詞,搜尋詞也必須進行中文分詞,將查詢字串轉換為以詞為基礎的關鍵詞組合,分詞的原理跟頁面分詞是一樣的,這裡就不詳細說了。
搜尋詞進行處理後,搜尋引擎得到的是以詞為基礎的關鍵詞集合,所以需要進行匹配,前面已經講過每乙個關鍵詞對應一系列的頁面,當然就是有這些關鍵詞的頁面,比如搜尋「張家港彎管機」,那分詞分為「張家港」 「彎管機」這兩個詞的話,只要找到這兩個詞頁面的交集就可以了,簡單的說就是都包含這兩個關鍵詞的頁面,也就是頁面12為了方便理解,我划了個**。
關鍵詞1
頁面1, 頁面3,頁面8,。。。頁面n
關鍵詞2
頁面11, 頁面13,頁面18,。。。頁面n
張家港頁面6, 頁面8,頁面12,。。。頁面n
彎管機頁面2, 頁面12,頁面18,。。。頁面n
關鍵詞y
頁面13, 頁面23,頁面38,。。。頁面n
找到包含這些頁面後,還不能進行相關性計算,因為這些頁面多的嚇人,這樣需要的時間就非常長,所以一般顯示出來的也就一百頁左右,如果每頁顯示十條的話,這樣就只要計算1000個結果的相關性,這1000條結果就是按權重大小選取的。所以說**的權重是非常重要的,權重不高是沒有機會獲得排名的。
得出這1000條結果後,然後就要進行相關性計算了,影響相關性的主要因素有哪些呢:
1.關鍵詞的常用程度,越常用的詞對搜尋詞的意義越小,這個用個例子來說吧,比如用輸入「我們站長」 www.cppcns.com「我們」這個詞的常用程度非常高,「站長」這個詞的常用程度就小,這樣的話如果a,b兩個頁面,a頁面的「我們」只是出現在了普通文字中,&lxrajndquo;站長」卻在標題中,而b頁面正好相反的話,那a頁面的相關性就比b頁程式設計客棧面高,這樣好理解了吧。
2.關鍵詞的密度,在不堆積關鍵詞的前提後,關鍵詞密度越高,相關性越高,但現在的重要程式越來越低了,所以保持一定的關鍵詞密度就可以了,一般在2%~8%之間。
3.關鍵詞的位置及形式,頁面關鍵詞出現的格式如標題,黑體,h1等,說明頁面與關鍵詞越相關。
4.關鍵詞距離,這個很容易理解,比如「我們站長」這個關鍵詞,如果連續出現,當然是最相關的,但「我們小站長」要比「我們全部站長」相關性要高,因為距離近嘛。
5.鏈結分折及頁面權重,這個不多說了,權重越高越好,內鏈,外鏈,要做好,就ok啦。
相關性計算好以後,再經過一些小調整就可以了,整個搜尋引擎工作原理就講到這裡,這裡只是講了一些重點,明天有空的話想單獨講一下鏈結原理,因為這裡面有好多東西要講的。今天就到這吧,本文由張家港彎管機 站長撰稿,**請留鏈結。
本文位址: /news/seo/69974.html
搜尋引擎工作原理
搜尋引擎優化的主要任務之一就是提高 的搜尋引擎友好性,因此,搜尋引擎優化的每乙個環節都會與搜尋引擎工作流程存在必然的聯絡,研究搜尋引擎優化實際上就是對搜尋引擎工作過程進行逆向推理。因此,學習搜尋引擎優化應該從了解搜尋引擎的工作原理開始。搜尋引擎的主要工作包括 頁面收錄 頁面分析 頁面排序 及 關鍵字...
搜尋引擎工作原理
搜尋引擎工作原理 爬行和抓取 預處理 排名 爬行和抓取 1,是通過蛛蛛程式來實現的,蛛蛛主要是通過鏈結來抓取所有頁面的.所以要想讓蛛蛛盡量的抓取頁面,必須要吸引蛛蛛 優化 2,為了避免重複爬行和抓取 搜尋引擎建立了乙個位址庫用來儲存已經抓取的頁面 位址庫中的url 大多數是蛛蛛獲取到的,當然也有一些...
搜尋引擎工作原理
你剛才在 上買了一件東西 在首頁搜尋框中輸入 毛衣 二字並按回車鍵,這時你又產生了乙個pv,然後,網的主搜尋系統便開始為你服務,它首先對你輸入的內容基於乙個分詞庫進行分詞操作。眾所周知,英文是以詞為單位的,詞和詞之間靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子...