中文分詞
solrcloud自身也支援中文分詞,根據系統需求,我這裡使用了ikanalyzer分詞器。支援solr的ikanalyzer版本是ikanalyzer2012ff_u1。
第一步
新增ikanalyzer的jar包至lib環境,操作如下:
cp ikanalyzer2012ff_u1.jar /data1/solr/example/solr/collection1/lib/
如/data1/solr/example/solr/collection1/lib/不存在,建立該目錄。
這裡也可以拷貝ikanalyzer的配置檔案和停用詞檔案:ikanalyzer.cfg.xml,stopword.dic
stopword.dic是英文的一些停用詞表,根據需求我們要建立自己的中文停用詞表
touch chinese_stopword.dic
配置ikanalyzer.cfg.xml
<?xml version="1.0" encoding="utf-8"?>
ik analyzer 擴充套件配置
stopword.dic;chinese_stopword.dic
最後拷貝ikanalyzer.jar檔案至solrhome/lib目錄下
cp ikanalyzer2012ff_u1.jar /data1/solr/example/solr/lib
以上操作執行在solrcloud的每個節點伺服器
第二步
配置solr的collection1/conf/schema.xml檔案,配置如下
field根據type屬性定義分詞器
至此,ikanalyzer中文分詞新增完成,更新下zookeeper的solr配置
cloud-scripts/zkcli.sh -cmd upconfig -zkhost server1:2181,server2:2181 -collection collection1 -confname myconf -solrhome ./solr -confdir ./solr/collection1/conf
重啟tomcat即可
NLP 二 中文處理jieba模組
jieba模組 中文沒有空格 jieba.cut方法接受三個引數的 需要分詞的字串 cut all引數用來控制是否採用全模式 hmm引數用來控制是否使用hmm模型 jieba.cut for search方法接受兩個引數 需要分詞的字串 是否使用hmm模型 import jieba text 我來到...
簡易中文自動文摘系統(二) 中文語料庫的準備
bzcat zhwiki latest pages articles.xml.bz2 python wikiextractor.py b 1000m o extracted output.txt其中 b 1000m是將文字以1000m大小為單位進行分割 output.txt儲存的是輸出過程中日誌資訊...
微控制器學習筆記(二) 中斷系統
cpu正在處理某件事情時,微控制器的內部或外部發生的某一事件請求cpu迅速去處理,於是cpu暫時中止當前的工作去處理所發生的事件。處理的過程是由中斷服務處理程式來負責的,它處理完後又回到原來被中止的地方,繼續原來的工作,這就是中斷。一 中斷請求 51 mcs 51系統簡稱,以下均使用51 中斷系統有...