搜尋引擎技術 系統架構之四

2021-04-09 00:51:17 字數 770 閱讀 3423

搜尋引擎的索引和搜尋

資料的索引分為三個步驟:網頁內容的提取、詞的識別、標引庫的建立。

網際網路上大部分資訊都是以html格式存在,對於索引來說,只處理文字資訊。因此需要把網頁中文字內容提取出來,過濾掉一些指令碼標示符和一些無用的廣告資訊,同時記錄文字的版面格式資訊[1]。詞的識別是搜尋引擎中非常關鍵的一部分,通過字典檔案對網頁內的詞進行識別。對於西文資訊來說,需要識別詞的不同形式,例如:單複數、過去式、組合詞、詞根等,對於一些亞洲語言(中文、日文、韓文等)需要進行分詞處理[3]。識別出網頁中的每個詞,並分配唯一的wordid號,用於為資料索引中的標引模組服務。

關於索引資料的詳細資料結構,有興趣的朋友可以參看文獻[4]。

搜尋引擎細化趨勢

從技術上講,各種搜尋引擎都具有類似的系統架構,其不同在於搜尋的資料來源的不同。除了上面提到的網頁搜尋引擎以外,下面列舉幾個典型的搜尋引擎:

新聞搜尋引擎

**搜尋引擎

影象搜尋引擎

商機搜尋引擎

電子商務一直是網際網路的熱點,商機搜尋對電子商務的發展也起到了巨大的推動作用,商機搜尋讓網際網路經濟和傳統經營緊密結合在一起,給傳統的企業提供了乙個新的銷售模式。商機搜尋引擎,通過抓取電子商務**的商品資訊和其他商業資訊,給訪問者提供統一的搜尋平台。目前有:soaso**搜尋引擎(http://www.soaso.com),8848購物搜尋(http://www.8848.com),阿里巴巴商機搜尋(http://www.alibaba.com)等。

其他特色的搜尋引擎還有專利搜尋、軟體搜尋、ftp搜尋、遊戲搜尋、法律搜尋等等。 

搜尋引擎的技術架構

作為網際網路應用中最具技術含量的應用之一,優秀的搜尋引擎需要複雜的架構和高效的演算法,以此來支撐對海量資料的獲取 儲存,以及對使用者查詢的快速而準確的響應。下圖所示是乙個通用搜尋引擎的架構示意圖。搜尋引擎由許多模組組成,各自負責不同的功能作用,相互配合形成完整的架構。搜尋引擎的資訊來自於網際網路網頁...

搜尋引擎的技術架構

搜尋引擎按其工作方式主要可分為三種 分別是全文搜尋引擎 full text search engine 目錄索引類搜尋引擎 search index directory 元搜尋引擎 meta search engine 全文搜尋引擎 雖然有搜尋功能,但嚴格意義上不能稱為真正的搜尋引擎,只是按目錄分類...

搜尋引擎的技術架構

搜尋引擎按其工作方式主要可分為三種 分別是全文搜尋引擎 full text search engine 目錄索引類搜尋引擎 search index directory 元搜尋引擎 meta search engine 全文搜尋引擎 元搜尋引擎在接受使用者查詢請求時,同時在其他多個引擎上進行搜尋,並...