一、對提交的搜尋請求分析
1、中文分詞
中文分詞是各大搜尋引擎中重要的環節,中文分詞能夠更加明確掌握搜尋請求的重點所在,時期更好地頁面展示給搜尋使用者。
a、基於字串匹配
在基於字串匹配中正向最大匹配法、逆向最大匹配法、最少切分這三種又比較常見。
逆向最大匹配法:剛剛是正向最大匹配法相反的規則,即從右往左反向進行拆分和組合。
最少切分:最小切分就是將乙個個片語切分為最細化,甚者會乙個字出現。
b、理解分詞方法
理解分詞方法:搜尋引擎模擬人的思維,對其語句的理解進行分詞技術。通過對儲存的詞語和語句的整合,進行分詞理解。其基本思想就是在分詞的同時進行句法、語義分析,利用句法資訊和語義資訊來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。
c、統計分詞方法
相鄰的字同時出現的次數越多,中文分詞就會可能把出現相鄰的字當成你乙個詞。我們常常不是使用粗體,黑體這些嗎?原因還在於這對於搜尋引擎理解同樣有利。
2、去掉停止詞
3、處理符號
二、匹配搜尋請求
當搜尋引擎接收到搜尋請求詳細分析之後,便會匹配url(當然重點是標題和摘要片段),匹配的url成千上萬個,怎樣才能有序顯示出來了,這就需要搜尋引擎按url的匹配程度排序。
三、對匹配網頁排名
為匹配的網頁排序,其實就是搜尋引擎對匹配的網頁進行篩選,挑選的過程,然後按照一定的順序整理出結構的行為。當然搜尋引擎都會給每個網頁乙個值,即權重,通過判斷該網頁對搜尋引擎和使用者體驗的價值進行排序排名。提高排名的因素多種多樣,目前基本上是參考hits演算法,trustrank信任指數演算法、pr值等等。
搜素引擎如何量化UEO
因為自己最近一直在做 珠海 建設 這個詞的推廣,所以經常去查排名,相信其他站長都會跟我一樣,也會對排在前面的競爭對手狀況進行分析,那rbjjiq 麼,假如乙個 在外鏈 內容更新 原創 建站時間 網域名稱註冊時間 以及其他各個方面都不如你,但人家就是霸著這個第一的位置,那是為什麼呢?誰能甘心。那我今天...
搜素引擎與社會責任的關係
搜尋引擎,相信大家都不陌生了。如今網路發達的時代,人麼幾乎可以不出門便知曉天下事。因為我們有便利的工具,我們有方便的裝置。正因為如此,所以現代人越來越依賴與網路,越來越沉迷其中。對於搜尋引擎,我們都是普遍使用的,我們都知道,有什麼東西查的上baidu google等一查便可以了。我們的作業的資料也是...
效能優化 工作筆記
效能優化 1.同步查詢速度慢的問題 a.如果查詢的結果相同的話就建立乙個物理化檢視 b.如果查詢的是不一樣的結果就可以優化查詢語句,或者建立索引 2.併發訪問死鎖問題 減少事務的長度 3.web調優步驟 a.明確應用程式的效能指標 b.在目標平台測試 c.如果效能已達到效能指標,停止調優工作 d.查...