介紹下es的幾個概念:
cluster
代表乙個集群,集群中有多個節點,其中有乙個為主節點,這個主節點是可以通過選舉產生的,主從節點是對於集群內部來說的。es的乙個概念就是去中心化,字面上理解就是無中心節點,這是對於集群外部來說的,因為從外部來看es集群,在邏輯上是個整體,你與任何乙個節點的通訊和與整個es集群通訊是等價的。
shards
代表索引分片,es可以把乙個完整的索引分成多個分片,這樣的好處是可以把乙個大的索引拆分成多個,分布到不同的節點上。構成分布式搜尋。分片的數量只能在索引建立前指定,並且索引建立後不能更改。
replicas
代表索引副本,es可以設定多個索引的副本,副本的作用一是提高系統的容錯性,當個某個節點某個分片損壞或丟失時可以從副本中恢復。二是提高es的查詢效率,es會自動對搜尋請求進行負載均衡。
recovery
代表資料恢復或叫資料重新分布,es在有節點加入或退出時會根據機器的負載對索引分片進行重新分配,掛掉的節點重新啟動時也會進行資料恢復。
river
代表es的乙個資料來源,也是其它儲存方式(如:資料庫)同步資料到es的乙個方法。它是以外掛程式方式存在的乙個es服務,通過讀取river中的資料並把它索引到es中,官方的river有couchdb的,rabbitmq的,twitter的,wikipedia的,river這個功能將會在後面的檔案中重點說到。
gateway
代表es索引的持久化儲存方式,es預設是先把索引存放到記憶體中,當記憶體滿了時再持久化到硬碟。當這個es集群關閉再重新啟動時就會從gateway中讀取索引資料。es支援多種型別的gateway,有本地檔案系統(預設),分布式檔案系統,hadoop的hdfs和amazon的s3雲儲存服務。
discovery.zen
代表es的自動發現節點機制,es是乙個基於p2p的系統,它先通過廣播尋找存在的節點,再通過多播協議來進行節點之間的通訊,同時也支援點對點的互動。
transport
代表es內部節點或集群與客戶端的互動方式,預設內部是使用tcp協議進行互動,同時它支援http協議(json格式)、thrift、servlet、memcached、zeromq等的傳輸協議(通過外掛程式方式整合)。
參考資料:
分布式搜尋elasticsearch配置檔案詳解
elasticsearch的config資料夾裡面有兩個配置檔案 elasticsearch.yml和logging.yml,第乙個是es的基本配置檔案,第二個是日誌配置檔案。elasticsearch.yml檔案中可以配置的如下 cluster.name elasticsearch 配置es的集群...
分布式搜尋方案選型
solr官網 我在學校專案實踐時使用過solandra,它是乙個基於solr和nosql資料庫cassandra的分布式搜尋引擎。cassandra是由facebook開源的nosql數 據庫,facebook的信箱搜尋就是基於它實現的,它是基於列結構的,不同與關聯式資料庫。它的數學模型基於goog...
分布式搜尋演算法
對於搜尋引擎來說,索引存放在成千上萬臺機器上,如何進行分布式搜尋呢?假設搜尋結果是以分頁的方式顯示,以 pagenumber 代表當前頁,從1 開始,以 pagesize 代表頁面大小 預設為 10,以n代表 搜尋伺服器數量 最簡單的 分布式搜尋演算法 為 有一台合併伺服器負責接受使用者的搜尋請求,...