搜尋引擎工作原理: 爬行和抓取------>預處理------>排名
爬行和抓取:
1,是通過蛛蛛程式來實現的,蛛蛛主要是通過鏈結來抓取所有頁面的.
所以要想讓蛛蛛盡量的抓取頁面,必須要吸引蛛蛛(**優化)。
2,為了避免重複爬行和抓取**,搜尋引擎建立了乙個位址庫用來儲存已經抓取的頁面
位址庫中的url 大多數是蛛蛛獲取到的,當然也有一些是通過提交**的
(不過這樣可能沒什麼用因為蛛蛛不抓取的,說明權重比較低)
3,檔案儲存,每個url 都有對應的檔案id,該檔案用於儲存抓取到的內容
預處理:
1,提取文字,(html格式標籤,js 這些是沒法用於排名的內容的)
2,中文分詞,有兩種方法一種是基於詞典匹配的,另一種是基於統計的(一般兩種都是結合著用的)
比如 :高效** ,詞典匹配高效 ** 都可以,統計匹配就 高效**
3,去停止詞:
什麼 的 了 地 啊哈 這些搜尋引擎在索引頁面的時候是會去掉的
4,消除雜訊:那些無關緊要的內容(排名是不會使用雜訊內容的)
排名:
比如使用者輸入「**方法」 程式分為」**「和「方法」和「**方法」,那麼有包含這兩種的就優先匹配,其次在匹配單個的
2 相關性計算
搜尋引擎工作原理
搜尋引擎優化的主要任務之一就是提高 的搜尋引擎友好性,因此,搜尋引擎優化的每乙個環節都會與搜尋引擎工作流程存在必然的聯絡,研究搜尋引擎優化實際上就是對搜尋引擎工作過程進行逆向推理。因此,學習搜尋引擎優化應該從了解搜尋引擎的工作原理開始。搜尋引擎的主要工作包括 頁面收錄 頁面分析 頁面排序 及 關鍵字...
搜尋引擎工作原理
你剛才在 上買了一件東西 在首頁搜尋框中輸入 毛衣 二字並按回車鍵,這時你又產生了乙個pv,然後,網的主搜尋系統便開始為你服務,它首先對你輸入的內容基於乙個分詞庫進行分詞操作。眾所周知,英文是以詞為單位的,詞和詞之間靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子...
搜尋引擎的工作原理
搜尋引擎是通過一種特定的規律的軟體跟蹤網頁的鏈結,從乙個鏈結爬到另乙個鏈結,像蜘蛛在蜘蛛網上爬行一樣,所以被稱為 蜘蛛 也被稱為是 機械人 搜尋引擎的爬行是被輸入了一定的規則的,它需要遵從一些命令或檔案的內容。搜尋引擎是通過蜘蛛跟蹤鏈結爬行到網頁,並將爬行的資料存入到原始頁面資料庫。其中的頁面資料與...