分布式搜尋引擎 大總結

2021-10-05 12:28:13 字數 2195 閱讀 8601

lucene:全文檢索和搜尋的開放原始碼程式,乙個jar包,裡面有建立倒排索引,以及搜尋的**,包括各種演算法。

倒排索引:將檢索內容的詞建立索引,指明該詞在文章**現的次數和位置,當發生查詢的時候,就根據建立好的索引去查詢。

全文檢索:以文字作為檢索物件,指出含有指定詞彙的文字

基於lucene的實時分布式搜尋和分析引擎。

寫入資料到查到資料有秒級的延遲。

乙個集群,多個節點,可以配置節點是哪個集群。

es.clustername = ; // 集群名字

es.ips = ; // 節點位址列表

es.port = ; // 埠

es.ins

tanc

enam

e.pa

th=/

xxx/

es/.path = /***/es/

instan

cena

me.p

ath=

/***

/es/

//es節點

es.ins

tanc

enam

e.re

adti

meou

t=10000//

es讀數

據的超時

時間es

..readtimeout = 10000 //es讀資料的超時時間 es.

instan

cena

me.r

eadt

imeo

ut=1

0000

//es

讀資料的

超時時間

es..conntimeout = 10000 //es連線的超時時間

一堆有相似結構的文件資料,如es_index = rc_manual; //人工審核

每個索引可以建立多個type,相當於小分類吧。比如es_type1 = trade; es_type2 = credit; // 交易單或者授信單。

資料都有哪些。

比如欄位都有哪些。order_id、order_create_time。。。

表結果的定義,字段以及屬性。 如,資料型別,是否分詞等。},}

}分片:索引的資料量很大的話,就可以設定分片,然後每個分片可以被放置在集群中的任何節點上。

複製:es提供了建立索引時候的複製功能,叫做複製分片。在節點失敗的情況下,提供了高可用。

預設情況下,es的每個索引被分片成5個主分片,然後每個主分片都會有乙個副本分片。

2.1 秒級的延遲。 前端請求延遲一點。

2.2 獲取不到es的連線,需要檢查es的相關配置,集群,ip,埠。

2.3 找不到索引,比如訂單索引,在建立的時候,可能根據時間劃分索引,寫的不完美,就可以有這個問題。

2.4 從zk上獲取es鏈結報錯,檢查zk上的配置資訊。

分布式搜尋引擎,底層還是基於lucene。

就是說在多個機器上啟動這個es程序例項,組成乙個es集群。

es儲存資料的基本單位是索引。

乙個index被分成了多個shard,這些shard以及它的shard副本被分布在多個機器上,這就是分布式架構。

為了保證集群的高可用,那麼每乙個shard都會有乙個副本shard,副本shard跟當前shard一般不放在同乙個機器上。

es程序1 2 3 組成乙個es集群, es會從這些程序裡選出乙個當master(master的作用,管理功能,維護元資料,負責切換primary shard 和 replica shard等)。

master 節點如果宕機,es會剩下的節點裡,重新選舉乙個新的master,並把宕機節點上的primiay shard的replica 提拔成 primiay,如shard2。

如果宕機機器重啟後,會取消它master的資格,並把它裡面的primary shard 置為 replica。

es部署了3臺機器(有幾個ip就部署了幾個吧),每台是6核64g,總記憶體是64*3 = 192g

日增量1w條資料吧,增量資料10mb,總量10g

有2個索引(授信單和交易單),每個索引資料量大概5g,每個索引的shard是預設的5個。

分布式搜尋引擎

es是基於lucene實現的分布式搜尋引擎 elasticsearch。核心思想是在多台機器上啟動多個es程序例項,組成了乙個es集群。es中儲存資料的基本單位是索引,比如說你現在要在es中儲存一些訂單資料,你就應該在es中建立乙個索引,order idx,所有的訂單資料就都寫到這個索引裡面去,乙個...

ElasticSearch分布式搜尋引擎 高階查詢

本文承接自 elasticsearch分布式搜尋引擎簡介及其增刪改查那些事 elasticsearch分布式搜尋引擎 基本查詢 bool把各種其它查詢通過must 與 must not 非 should 或 的方式進行組合 get testindex511 search must not shoul...

分布式搜尋引擎介紹(一)

google就是典型的分布式搜尋引擎,它由上萬台計算機組成。下面主要講一下分布式搜尋引擎的核心問題以及主要的分布式搜尋引擎設計方法。分布式搜尋引擎的最主要的核心問題 1 分布的資訊獲取和計算,以及對此進行的資料統一 這裡面包括爬蟲或者相應的資料獲取機制的分布,對資訊進行加工的統一管理。2 資料處理後...