分布式搜尋elasticsearch配置檔案詳解

2021-06-16 18:35:16 字數 3293 閱讀 2641

elasticsearch的config資料夾裡面有兩個配置檔案:elasticsearch.yml和logging.yml,第乙個是es的基本配置檔案,第二個是日誌配置檔案。

elasticsearch.yml檔案中可以配置的如下:

cluster.name: elasticsearch

配置es的集群名稱,預設是elasticsearch,es會自動發現在同一網段下的es,如果在同一網段下有多個集群,就可以用這個屬性來區分不同的集群。

node.name: "franz kafka"

節點名,預設隨機指定乙個name列表中名字,該列表在es的jar包中config資料夾裡name.txt檔案中,其中有很多作者新增的有趣名字。

node.master: true

指定該節點是否有資格被選舉成為node,預設是true,es是預設集群中的第一台機器為master,如果這台機掛了就會重新選舉master。

node.data: true

指定該節點是否儲存索引資料,預設為true。

index.number_of_shards: 5

設定預設索引分片個數,預設為5片。

index.number_of_replicas: 1

設定預設索引副本個數,預設為1個副本。

path.conf: /path/to/conf

設定配置檔案的儲存路徑,預設是es根目錄下的config資料夾。

path.data: /path/to/data

設定索引資料的儲存路徑,預設是es根目錄下的data資料夾,可以設定多個儲存路徑,用逗號隔開,例:

path.data: /path/to/data1,/path/to/data2

path.work: /path/to/work

設定臨時檔案的儲存路徑,預設是es根目錄下的work資料夾。

path.logs: /path/to/logs

設定日誌檔案的儲存路徑,預設是es根目錄下的logs資料夾

path.plugins: /path/to/plugins

設定外掛程式的存放路徑,預設是es根目錄下的plugins資料夾

network.bind_host: 192.168.0.1

設定繫結的ip位址,可以是ipv4或ipv6的,預設為0.0.0.0。

network.publish_host: 192.168.0.1

設定其它節點和該節點互動的ip位址,如果不設定它會自動判斷,值必須是個真實的ip位址。

network.host: 192.168.0.1

這個引數是用來同時設定bind_host和publish_host上面兩個引數。

transport.tcp.port: 9300

設定節點間互動的tcp埠,預設是9300。

transport.tcp.compress: true

設定是否壓縮tcp傳輸時的資料,預設為false,不壓縮。

設定對外服務的http埠,預設為9200。

設定內容的最大容量,預設100mb

是否使用http協議對外提供服務,預設為true,開啟。

gateway.type: local

gateway的型別,預設為local即為本地檔案系統,可以設定為本地檔案系統,分布式檔案系統,hadoop的hdfs,和amazon的s3伺服器,其它檔案系統的設定方法下次再詳細說。

gateway.recover_after_nodes: 1

設定集群中n個節點啟動時進行資料恢復,預設為1。

gateway.recover_after_time: 5m

設定初始化資料恢復程序的超時時間,預設是5分鐘。

gateway.expected_nodes: 2

設定這個集群中節點的數量,預設為2,一旦這n個節點啟動,就會立即進行資料恢復。

cluster.routing.allocation.node_initial_primaries_recoveries: 4

初始化資料恢復時,併發恢復執行緒的個數,預設為4。

cluster.routing.allocation.node_concurrent_recoveries: 2

新增刪除節點或負載均衡時併發恢復執行緒的個數,預設為4。

indices.recovery.max_size_per_sec: 0

設定資料恢復時限制的頻寬,如入100mb,預設為0,即無限制。

indices.recovery.concurrent_streams: 5

設定這個引數來限制從其它分片恢復資料時最大同時開啟併發流的個數,預設為5。

discovery.zen.minimum_master_nodes: 1

設定這個引數來保證集群中的節點可以知道其它n個有master資格的節點。預設為1,對於大的集群來說,可以設定大一點的值(2-4)

discovery.zen.ping.timeout: 3s

設定集群中自動發現其它節點時ping連線超時時間,預設為3秒,對於比較差的網路環境可以高點的值來防止自動發現時出錯。

discovery.zen.ping.multicast.enabled: false

設定是否開啟多播發現節點,預設是true。

discovery.zen.ping.unicast.hosts: ["host1", "host2:port", "host3[portx-porty]"]

設定集群中master節點的初始列表,可以通過這些節點來自動發現新加入集群的節點。

下面是一些查詢時的慢日誌引數設定

index.search.slowlog.level: trace

index.search.slowlog.threshold.query.warn: 10s

index.search.slowlog.threshold.query.info: 5s

index.search.slowlog.threshold.query.debug: 2s

index.search.slowlog.threshold.query.trace: 500ms

index.search.slowlog.threshold.fetch.warn: 1s

index.search.slowlog.threshold.fetch.info: 800ms

index.search.slowlog.threshold.fetch.debug:500ms

index.search.slowlog.threshold.fetch.trace: 200ms

分布式搜尋方案選型

solr官網 我在學校專案實踐時使用過solandra,它是乙個基於solr和nosql資料庫cassandra的分布式搜尋引擎。cassandra是由facebook開源的nosql數 據庫,facebook的信箱搜尋就是基於它實現的,它是基於列結構的,不同與關聯式資料庫。它的數學模型基於goog...

分布式搜尋演算法

對於搜尋引擎來說,索引存放在成千上萬臺機器上,如何進行分布式搜尋呢?假設搜尋結果是以分頁的方式顯示,以 pagenumber 代表當前頁,從1 開始,以 pagesize 代表頁面大小 預設為 10,以n代表 搜尋伺服器數量 最簡單的 分布式搜尋演算法 為 有一台合併伺服器負責接受使用者的搜尋請求,...

分布式搜尋elasticsearch幾個概念解析

cluster 代表乙個集群,集群中有多個節點,其中有乙個為主節點,這個主節點是可以通過選舉產生的,主從節點是對於集群內部來說的。es的乙個概念就是去中心化,字面上理解就是無中心節點,這是對於集群外部來說的,因為從外部來看es集群,在邏輯上是個整體,你與任何乙個節點的通訊和與整個es集群通訊是等價的...