快速學習 IK分詞器

在新增文件時會進行分詞，索引中存放的就是乙個乙個的詞（term），當你去搜尋時就是拿關鍵字去匹配詞，最終找到詞關聯的文件。

測試當前索引庫使用的分詞器：

post 傳送：localhost:9200/_analyze

結果如下：

會發現分詞的效果將「測試」這個詞拆分成兩個單字「測」和「試」，這是因為當前索引庫使用的分詞器對中文就是單字分詞。

使用ik分詞器可以實現對中文分詞的效果。

測試分詞效果：

傳送：post localhost:9200/_analyze

ik分詞器有兩種分詞模式：ik_max_word和ik_smart模式。

1、ik_max_word

會將文字做最細粒度的拆分，比如會將「中華人民共和國人民大會堂」拆分為「中華人民共和國、中華人民、中華、華人、人民共和國、人民、共和國、大會堂、大會、會堂等詞語。

2、ik_smart

會做最粗粒度的拆分，比如會將「中華人民共和國人民大會堂」拆分為中華人民共和國、人民大會堂。測試兩種分詞模式：

傳送：post localhost:9200/_analyze

如果要讓分詞器支援一些專有詞語，可以自定義詞庫。

ik分詞器自帶乙個main.dic的檔案，此檔案為詞庫檔案。

在上邊的目錄中新建乙個my.dic檔案（注意檔案格式為utf-8（不要選擇utf-8 bom））

可以在其中自定義詞彙：

比如定義：

配置檔案中配置my.dic，

重啟es，測試分詞效果：

傳送：post localhost:9200/_analyze

ik分詞器安裝

官方demo es中plugins最終結果 es中conf analysis ik的最終結果執行 plugin安裝 1.查詢es程序 ps ef grep elastic 2.殺掉es程序 kill 9 2382 程序號 3.重啟es sh elasticsearch d 1.通過rest方式建立...

ik分詞器安裝

lucene的ik分詞器早在2012年已經沒有維護了，現在我們要使用的是在其基礎上維護公升級的版本，並且開發為elasticsearch的整合外掛程式了，與elasticsearch一起維護公升級，版本也保持一致，最新版本 6.3.0 上傳課前資料中的zip包，解壓到elasticsearch目錄的...

IK分詞器外掛程式

分詞即把一段中文或者別的劃分成乙個個的關鍵字，我們在搜尋時候會把自己的資訊進行分詞，會把資料庫中或者索引庫中的資料進行分詞，然後進行乙個匹配操作，預設的中文分詞是將每個字看成乙個詞，比如我愛小葉曲會被分為我愛小葉曲這顯然是不符合要求的，所以我們需要安裝中文分詞器ik來解決這個問題。...

快速學習 IK分詞器

ik分詞器安裝

ik分詞器安裝

IK分詞器外掛程式

相關推薦