1、基於中文分詞的基礎上加入同義詞特性
2、需要mmseg4j支援
3、如搜尋「北京」同義詞有「京城」、「帝都」等
solr官方已經提供同義詞特性,但不支援中文同義詞,需要在中文分詞的基礎上進行配置。
在原中文分詞的基礎上加入:
檔案(synonyms.txt)和schema.xml在同級目錄,solr預設有這個檔案。
示例如下,檔案:schema.xml
檔案:synonyms.txt
北京=>帝都 京城 天安門 京北注:
1.北京 帝都 京城 天安門 京北
如上這些關鍵字必須在中文詞庫中存在,否則同義詞配置無效。
2.如上「北京」的同義詞「京城」、「帝都」不能在同義詞檔案中重複定義,否則會出現覆蓋情況。
也就說不能再配置(帝都=>北京)這樣的同義詞,否則覆蓋
solr整合mmseg4j實現中文分詞檢索
1 使用mmseg4j 1.9版本 mmseg4j core 1.9.0.jar 包括詞庫檔案 mmseg4j analysis 1.9.0.jar 是一些 analysis mmseg4j solr 1.9.0.jar 是一些 solr 使用的功能。2 將mmseg的jar放入solr web i...
solr安裝mmseg4j 分詞器
注意版本 2.拷貝jar 3.準備自定義詞庫 1.6版支援多個詞庫檔案,定義的目錄下讀到 words 字首且 dic 為字尾的檔案,如 f dic words mmseg4j.dic。新增自定義詞條,一條一行 注意,必須utf 8編碼格式 如下圖所示 4.配置schema.xml dicpath f...
solr5 0整合mmseg4j分詞器
畢竟ik跟不上搜尋引擎的步驟啊,以前用習慣了ik突然solr5.0卻沒有對應的版本 可能是我沒找到吧 這裡先用mmesg4j代替下,感覺還不錯,整合流程超級簡單,幾步就搞定 2 進入solr home目錄,建立自己的詞庫,我這裡是建立my dic資料夾,裡面放乙個words dic的檔案就行 注意,...