field.store.yes:儲存字段值(未分詞前的字段值)
field.store.no:不儲存,儲存與索引沒有關係
field.store.compress:壓縮儲存,用於長文字或二進位制,但效能受損
jieba分詞(結巴分詞作為es的外掛程式:)
按照這個**說的,即可安裝。
ansj分詞外掛程式:
jcseg分詞外掛程式: 或
利用mvn package命名可以生成jar包
(1.9.8版本)分別生成jcseg-core-1.9.8.jar和jcseg-analyzer-1.9.8.jar,並將lexion資料夾和這兩個jar包放到同乙個目錄下,否則初始化的時候會因此找不到lexion資料夾而報錯。
2.2版本不需要移動lexion資料夾
(2).複雜模式:mmseg四種過濾演算法,具有較高的歧義去除,分詞準確率達到了98.41%。
(3).檢測模式:只返回詞庫中已有的詞條,很適合某些應用場合。
(4).檢索模式:細粒度切分,專為檢索而生,除了中文處理外(不具備中文的人名,數字識別等智慧型功能)其他與複雜模式一致(英文,組合詞等)。
(5).分隔符模式:按照給定的字元切分詞條,預設是空格,特定場合的應用。
(6).nlp模式:繼承自複雜模式,更改了數字,單位等詞條的組合方式,增加電子郵件,大陸手機號碼,**,人名,地名,貨幣等以及無限種自定義實體的識別與返回。
基於 IK 分詞器的 ES 通用索引模板
索引模板只在索引被建立時候生效,一旦索引建立後,對索引模板的修改不會對舊索引的設定造成任何影響。簡單來說,索引模板是一種復用機制,省去了大量重複性勞動,索引模板的基本結構如下所示 索引設定 aliases 索引的別名 複製 對於模板內部更加細節的配置,本文不做介紹,具體可參考文章 www.jians...
es6安裝中文分詞外掛程式 ik(3)
ik官網 進入elasticsearch安裝目錄,執行以下命令 elasticsearch analysis ik bin elasticsearch plugin install download v6.3.1 elasticsearch analysis ik 6.3.1.zip 2 安裝完畢之...
中文分詞 基於字標註法的分詞
中文分詞字標註通常有2 tag,4 tag和6 tag這幾種方法,其中4 tag方法最為常用。標註集是依據漢字 其中也有少量的非漢字字元 在漢語詞中的位置設計的。1.2 tag法 2 tag是一種最簡單的標註方法,標註集合為,其將詞首標記設計為b,而將詞的其他位置標記設計為i。例如詞語 重慶 的標註...