首先安裝乙個web伺服器 然後在nginx中新建乙個目錄和檔案用於儲存自定義分詞
然後啟動web伺服器即可
進入elasticsearch-7.16.3/plugins/ik/config目錄
編輯 ikanalyzer.cfg.xml
根據注釋內容填寫即可
http://localhost/es/analyze.txt< /entry>
linux whereis命令用於查詢檔案。
該指令會在特定目錄中查詢符合條件的檔案。這些檔案應屬於原始**、二進位制檔案,或是幫助檔案。
該指令只能用於查詢二進位制檔案、源**檔案和man手冊頁,一般檔案的定位需使用locate命令。
自定義中文分詞
基於統計的分詞 序列模型分詞 常用的分詞方法有 基於規則的分詞是通過維護字典的方法,在切分語句時將語句中的字元與詞典進行逐一匹配去劃分詞語,是一種比較機械的分詞方式 my dict 江大橋 研究 生命科學 南京市 研究生 大橋 科學 課題 南京市長 生命 長江大橋 南京 市長 max length ...
自定義分詞器Analyzer
參考 analyzer,或者說文字分析的過程,實質上是將輸入文字轉化為文字特徵向量的過程。這裡所說的文字特徵,可以是詞或者是短語。它主要包括以下四個步驟 1 分詞,將文字解析為單詞或短語 2 歸一化,將文字轉化為小寫 3 停用詞處理,去除一些常用的 無意義的詞 4 提取詞幹,解決單複數 時態語態等問...
IKAnalyzer 自定義分詞器
lucene 全文搜尋框架,具體的定義在這裡就不過多的介紹。那麼主要講一下,利用第三方分詞器自定義我們的分成規則,ikanalyzer 庖丁分詞器就是乙個很好的中文分詞器。首先匯入對應的jar包,我們都很清楚,配置檔案是一種有效擴充套件的一種方式,那麼ikanalyzer也不例外。1.首先建立乙個專...