在新增文件時會進行分詞,索引中存放的就是乙個乙個的詞(term),當你去搜尋時就是拿關鍵字去匹配詞,最終找到詞關聯的文件。
測試當前索引庫使用的分詞器:
post 傳送:localhost:9200/_analyze
結果如下:
會發現分詞的效果將 「測試」 這個詞拆分成兩個單字「測」和「試」,這是因為當前索引庫使用的分詞器對中文就是單字 分詞。
使用ik分詞器可以實現對中文分詞的效果。
測試分詞效果:
傳送:post localhost:9200/_analyze
ik分詞器有兩種分詞模式:ik_max_word和ik_smart模式。
1、ik_max_word
會將文字做最細粒度的拆分,比如會將「中華人民共和國人民大會堂」拆分為「中華人民共和國、中華人民、中華、 華人、人民共和國、人民、共和國、大會堂、大會、會堂等詞語。
2、ik_smart
會做最粗粒度的拆分,比如會將「中華人民共和國人民大會堂」拆分為中華人民共和國、人民大會堂。 測試兩種分詞模式:
傳送:post localhost:9200/_analyze
如果要讓分詞器支援一些專有詞語,可以自定義詞庫。
ik分詞器自帶乙個main.dic的檔案,此檔案為詞庫檔案。
在上邊的目錄中新建乙個my.dic檔案(注意檔案格式為utf-8(不要選擇utf-8 bom))
可以在其中自定義詞彙:
比如定義:
配置檔案中配置my.dic,
重啟es,測試分詞效果:
傳送:post localhost:9200/_analyze
ik分詞器安裝
官方demo es中plugins最終結果 es中conf analysis ik的最終結果 執行 plugin安裝 1.查詢es程序 ps ef grep elastic 2.殺掉es程序 kill 9 2382 程序號 3.重啟es sh elasticsearch d 1.通過rest方式建立...
ik分詞器安裝
lucene的ik分詞器早在2012年已經沒有維護了,現在我們要使用的是在其基礎上維護公升級的版本,並且開發為elasticsearch的整合外掛程式了,與elasticsearch一起維護公升級,版本也保持一致,最新版本 6.3.0 上傳課前資料中的zip包,解壓到elasticsearch目錄的...
IK分詞器外掛程式
分詞 即把一段中文或者別的劃分成乙個個的關鍵字,我們在搜尋時候會把自己的資訊進行分詞,會把資料庫中或者索引庫中的資料進行分詞,然後進行乙個匹配操作,預設的中文分詞是將每個字看成乙個詞,比如 我愛小葉曲 會被分為 我 愛 小 葉 曲 這顯然是不符合要求的,所以我們需要安裝中文分詞器ik來解決這個問題。...