搜尋引擎工作原理

《你剛才在**上買了一件東西》：

在首頁搜尋框中輸入「毛衣」二字並按回車鍵，這時你又產生了乙個pv，然後，**網的主搜尋系統便開始為你服務，它首先對你輸入的內容基於乙個分詞庫進行分詞操作。眾所周知，英文是以詞為單位的，詞和詞之間靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述乙個意思。

例如，英文句子「i am a student」用中文表示，則為「我是乙個學生」。計算機可以很簡單地通過空格知道student是乙個單詞，但是不太容易明白「學」、「生」兩個字合起來才表示乙個詞。把中文的漢字序列切分成有意義的詞，就是中文分詞，有些人也稱為切詞。「我是乙個學生」分詞的結果是「我是乙個學生」。

進行分詞操作之後，還需要根據你輸入的搜尋詞進行購物意圖分析。使用者進行搜尋時常常有如下幾類意圖。

瀏覽型：沒有明確的購物物件和意圖，邊看邊買，使用者比較隨意和感性。query *注1例如：

「2023年10大香水排行」、

「2023年流行毛衣」、「zippo有多少種類？」；

查詢型：有一定的購物意圖，體現在對屬性的要求上。

query例如：「適合老人用的手機」、「500元手錶」；

對比型：已經縮小了購物意圖，具體到某幾個產品。query

例如：「諾基亞e71 e63」、「akg k450 px200」；

確定型：已經做了基本決定，重點考察某個物件。query例

如：「諾基亞n97」、「ibm t60」。

通過對你的購物意圖的分析，主搜尋會呈現出完全不同的結果。

接下來，無論你是否真的進行了交易，你的這些訪問行為都

會如實地被系統記錄下來，用於後續的業務邏輯和資料分析。

在抓取網頁的時候，網路蜘蛛一般有兩種策略：廣度優先和深度優先（如下圖所示）。

廣度優先是指網路蜘蛛會先抓取起始網頁中鏈結的所有網頁，然後再選擇其中的乙個鏈結網頁，繼續抓取在此網頁中鏈結的所有網頁。這是最常用的方式，因為這個方法可以讓網路蜘蛛並行處理，提高其抓取速度。

分詞技術，然後統計高頻詞彙等。

乙個網頁被很多其他網頁所鏈結，說明它受到普遍的承認和信賴，排名就高。

對於不同網頁的鏈結區別對待，排名高的網頁鏈結更可靠，這些鏈結的權重就更大。

pagerank網頁排名技術

參考：zhihu 搜尋引擎的工作原理是什麼;

電子書這就是搜尋引擎：核心技術詳解;

how google works pdf;

搜尋引擎技術之概要預覽;

搜尋引擎工作原理

搜尋引擎工作原理

搜尋引擎工作原理

搜尋引擎的工作原理

相關推薦