搜尋架構引擎 方案與細節

2021-07-30 13:43:05 字數 695 閱讀 3978

搜尋架構

文字很多,有巨集觀,有細節,對於大部分不是專門研究搜尋引擎的同學,記住以下幾點即可:

(1)全網搜尋引擎系統由spider, search&index, rank三個子系統構成

(2)站內搜尋引擎與全網搜尋引擎的差異在於,少了乙個spider子系統

(3)spider和search&index系統是兩個工程系統,rank系統的優化卻需要長時間的調優和積累

(4)正排索引(forward index)是由網頁url_id快速找到分詞後網頁內容list的過程

(5)倒排索引(inverted index)是由分詞item快速尋找包含這個分詞的網頁list的過程

(6)使用者檢索的過程,是先分詞,再找到每個item對應的list,最後進行集合求交集的過程

(7)有序集合求交集的方法有

a)二重for迴圈法,時間複雜度o(n*n)

b)拉鍊法,時間複雜度o(n)

c)水平分桶,多執行緒並行

d)bitmap,大大提高運算並行度,時間複雜度o(n)

e)跳表,時間複雜度為o(log(n))

自研搜尋的話,歷史資料怎麼遷移到新的架構上。產生資料的業務服務是否要重構?工程上要考慮哪些方面和流程?

(1)資料初始化,需要重建索引

(2)為了保證資料一致性,索引緊密性,也需要定期重建索引

(3)搜尋的介面、架構變化了,呼叫需要公升級

搜尋引擎架構

最近對研究搜尋引擎有濃厚的興趣,在這裡總結如下 搜尋引擎的資訊 於網際網路網頁,通過網路爬蟲將整個網際網路的資訊獲取到本地,因為網頁中有相當大比例的內容是完全相同或近似重複的,網頁去重模組會對此進行檢測,並去除重複內容。之後搜尋引擎會對網頁進行解析,抽取出網頁主體內容,以及頁面包含的指向其他頁面的鏈...

搜尋引擎架構

搜尋引擎獲取並儲存海量的網頁相關資訊,不需要實時計算,可看做搜尋引擎的後台計算系統。搜尋引擎的最重要目的是為使用者提供準確全面的搜尋結果。當搜尋引擎接收到使用者的查詢詞後,首先需要對查詢詞進行分析,希望能夠結合查詢詞和使用者資訊來正確推導使用者的真正搜尋結果,如果能夠在快取系統找到滿足使用者需求的資...

搜尋引擎(1) 概述與功能架構

做搜尋引擎有有2年時間了,算是有個基本的入門。決定寫乙個系列部落格,記錄下自己所認識的搜尋引擎,也希望對新入行的朋友有些幫助。搜尋與推薦 網際網路上有海量的資訊,從網際網路上獲取資訊或娛樂,最主要的2個途徑就是搜尋和推薦。搜尋與推薦的最大差異,就是主動與被動。搜尋領域 當前搜尋推薦都涉及網際網路的各...