分布式搜尋引擎介紹(一)

2021-07-04 17:13:19 字數 450 閱讀 2793

google就是典型的分布式搜尋引擎,它由上萬台計算機組成。下面主要講一下分布式搜尋引擎的核心問題以及主要的分布式搜尋引擎設計方法。

分布式搜尋引擎的最主要的核心問題:

(1)分布的資訊獲取和計算,以及對此進行的資料統一;

這裡面包括爬蟲或者相應的資料獲取機制的分布,對資訊進行加工的統一管理。

(2)資料處理後的分布儲存和管理;

主要是檔案的準確定位和更新、增加、刪除、移動的機制。

(3)前端搜尋服務的分布。

主要處理大規模併發請求的分布機制。

針對以上的3個需求,可以設計如下的4類分布式搜尋引擎:

(1)分布式元搜尋引擎

(2)雜湊式分布搜尋引擎

(3)p2p分布式搜尋引擎

(4)區域性遍歷型搜尋引擎

下面的文章會逐一介紹。

參考:《搜尋引擎 原理、實踐與應用》(盧亮、張博文編著)

分布式搜尋引擎

es是基於lucene實現的分布式搜尋引擎 elasticsearch。核心思想是在多台機器上啟動多個es程序例項,組成了乙個es集群。es中儲存資料的基本單位是索引,比如說你現在要在es中儲存一些訂單資料,你就應該在es中建立乙個索引,order idx,所有的訂單資料就都寫到這個索引裡面去,乙個...

ElasticSearch分布式搜尋引擎 高階查詢

本文承接自 elasticsearch分布式搜尋引擎簡介及其增刪改查那些事 elasticsearch分布式搜尋引擎 基本查詢 bool把各種其它查詢通過must 與 must not 非 should 或 的方式進行組合 get testindex511 search must not shoul...

分布式搜尋引擎相關問題

lucene 如果你確實真的不連lucene都不知道是什麼?我覺得你確實不應該,lucene底層的原理是乙個東西,叫做倒排索引。太基礎了。lucen入門 倒排序 elasticsearch elasticsearch入門,初步至少知道es的一些基本概念,然後包括es的基本部署和基本的使用 面試官可能...