《你剛才在**上買了一件東西》:
在首頁搜尋框中輸入「毛衣」二字並按回車鍵,這時你又產生了乙個pv,然後,**網的主搜尋系統便開始為你服務,它首先對你輸入的內容基於乙個分詞庫進行分詞操作。眾所周知,英文是以詞為單位的,詞和詞之間靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。
例如,英文句子「i am a student」用中文表示,則為「我是乙個學生」。計算機可以很簡單地通過空格知道student是乙個單詞,但是不太容易明白「學」、「生」兩個字合起來才表示乙個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。「我是乙個學生」分詞的結果是「我 是 乙個 學生」。
進行分詞操作之後,還需要根據你輸入的搜尋詞進行購物意圖分析。使用者進行搜尋時常常有如下幾類意圖。
瀏覽型:沒有明確的購物物件和意圖,邊看邊買,使用者比較隨意和感性。query *注1例如:
「2023年10大香水排行」、
「2023年流行毛衣」、「zippo有多少種類?」;
查詢型:有一定的購物意圖,體現在對屬性的要求上。
query例如:「適合老人用的手機」、「500元 手錶」;
對比型:已經縮小了購物意圖,具體到某幾個產品。query
例如:「諾基亞e71 e63」、「akg k450 px200」;
確定型:已經做了基本決定,重點考察某個物件。query例
如:「諾基亞n97」、「ibm t60」。
通過對你的購物意圖的分析,主搜尋會呈現出完全不同的結果。
接下來,無論你是否真的進行了交易,你的這些訪問行為都
會如實地被系統記錄下來,用於後續的業務邏輯和資料分析。
在抓取網頁的時候,網路蜘蛛一般有兩種策略:廣度優先和深度優先(如下圖所示)。
廣度優先是指網路蜘蛛會先抓取起始網頁中鏈結的所有網頁,然後再選擇其中的乙個鏈結網頁,繼續抓取在此網頁中鏈結的所有網頁。這是最常用的方式,因為這個方法可以讓網路蜘蛛並行處理,提高其抓取速度。
分詞技術,然後統計高頻詞彙等。
乙個網頁被很多其他網頁所鏈結,說明它受到普遍的承認和信賴,排名就高。
對於不同網頁的鏈結區別對待,排名高的網頁鏈結更可靠,這些鏈結的權重就更大。
pagerank網頁排名技術
參考:zhihu 搜尋引擎的工作原理是什麼;
電子書 這就是搜尋引擎:核心技術詳解;
how google works pdf;
搜尋引擎技術之概要預覽;
搜尋引擎工作原理
搜尋引擎優化的主要任務之一就是提高 的搜尋引擎友好性,因此,搜尋引擎優化的每乙個環節都會與搜尋引擎工作流程存在必然的聯絡,研究搜尋引擎優化實際上就是對搜尋引擎工作過程進行逆向推理。因此,學習搜尋引擎優化應該從了解搜尋引擎的工作原理開始。搜尋引擎的主要工作包括 頁面收錄 頁面分析 頁面排序 及 關鍵字...
搜尋引擎工作原理
搜尋引擎工作原理 爬行和抓取 預處理 排名 爬行和抓取 1,是通過蛛蛛程式來實現的,蛛蛛主要是通過鏈結來抓取所有頁面的.所以要想讓蛛蛛盡量的抓取頁面,必須要吸引蛛蛛 優化 2,為了避免重複爬行和抓取 搜尋引擎建立了乙個位址庫用來儲存已經抓取的頁面 位址庫中的url 大多數是蛛蛛獲取到的,當然也有一些...
搜尋引擎的工作原理
搜尋引擎是通過一種特定的規律的軟體跟蹤網頁的鏈結,從乙個鏈結爬到另乙個鏈結,像蜘蛛在蜘蛛網上爬行一樣,所以被稱為 蜘蛛 也被稱為是 機械人 搜尋引擎的爬行是被輸入了一定的規則的,它需要遵從一些命令或檔案的內容。搜尋引擎是通過蜘蛛跟蹤鏈結爬行到網頁,並將爬行的資料存入到原始頁面資料庫。其中的頁面資料與...