分詞:即把一段中文或者別的劃分成乙個個的關鍵字,我們在搜尋時候會把自己的資訊進行分詞,會把資料庫中或者索引庫中的資料進行分詞,然後進行乙個匹配操作,預設的中文分詞是將每個字看成乙個詞,比如 「我愛小葉曲」 會被分為"我","愛","小","葉","曲" 這顯然是不符合要求的,所以我們需要安裝中文分詞器ik來解決這個問題。
如果要使用中文,建議使用ik分詞器!
ik提供了兩個分詞演算法:ik_smart 和 ik_max_word,其中ik_smart 為最少切分,ik_max_word為最細粒度劃分!
安裝:
重啟觀察es,可以看到ik分詞器被載入了!
elasticsearch-plugin list 可以通過這個命令來檢視載入進來的外掛程式
檢視不同的分詞效果
其中ik_smart 為最少切分
ik_max_word為最細粒度劃分!窮盡詞庫的可能!字典!
我們輸入 「超級喜歡賈宇光」
發現問題:「賈宇光」 被拆開了!
這種自己需要的詞,需要自己加到我們的分詞器的字典中!
重啟es,看細節!
再次測試一下狂神說,看下效果!
ik分詞器安裝
官方demo es中plugins最終結果 es中conf analysis ik的最終結果 執行 plugin安裝 1.查詢es程序 ps ef grep elastic 2.殺掉es程序 kill 9 2382 程序號 3.重啟es sh elasticsearch d 1.通過rest方式建立...
ik分詞器安裝
lucene的ik分詞器早在2012年已經沒有維護了,現在我們要使用的是在其基礎上維護公升級的版本,並且開發為elasticsearch的整合外掛程式了,與elasticsearch一起維護公升級,版本也保持一致,最新版本 6.3.0 上傳課前資料中的zip包,解壓到elasticsearch目錄的...
ik分詞器 分詞原理 分詞技術及開源分詞器
分詞是自然語言處理的第一步,這裡主要從序列標註的角度遞進介紹hmm如何實現分詞,然後介紹分詞工具的使用,在nlp中,分詞 詞性標註和命名實體識別都屬於標註任務,也就是對token進行分詞,對於分詞任務難點有以下幾個 新詞的發現 未登陸此 人名 地名 商標名 公司名稱 2.詞典與演算法優先順序 我們 ...