測試庖丁解牛分詞工具

2021-06-21 04:13:52 字數 955 閱讀 4598

因為筆者要在mapreduce中進行中文分詞解析資料,所以測試了一下庖丁解牛中文分詞器(paoding-analysis-2.0.4-beta)。現將使用過程小結:

個人環境:linux+eclipse

使用分為如下幾步:

1. 配置dic檔案:

修改paoding-analysis.jar中的paoding-dic-home.properties檔案,將「#paoding.dic.home=dic」的注釋去掉,並配置成自己dic檔案的本地存放路徑。eg:/home/hadoop/work/paoding-analysis-2.0.4-beta/dic

2. 把jar包匯入到專案中:

將paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四個包匯入到專案中,

這時就可以在**片段中使用庖丁解牛工具提供的中文分詞技術,例如:

analyzer analyzer = new paodinganalyzer(); //定義乙個解析器

string text = "庖丁系統是個完全基於lucene的中文分詞系統,它就是重新建了乙個analyzer,叫做paodinganalyzer,這個analyer的核心任務就是生成乙個可以切詞tokenstream。"; //待分詞的內容

tokenstream tokenstream = analyzer.tokenstream(text, new stringreader(text)); //得到token序列的輸出流

try

} catch (ioexception e)

結果如下:

每一行的輸出是乙個token。

Blue Coat 庖丁解牛 雲安全勢在必行

本文講的是blue coat 庖丁解牛 雲安全勢在必行,移動網際網路與雲服務的熱潮讓如今的企業辦公環境發生了根本性的改變。業務系統和遠端服務都在通過雲端慢慢向移動終端遷移,基於雲的多樣化手段也催生了基於雲的全新的安全概念。受訪人blue coat大中華區技術總監 王躍霖 blue coat此前收購p...

庖丁解牛Linux核心分析 0x00 《庖丁解牛》

庖丁解牛 吾生也有涯,而知也無涯 以有涯隨無涯,殆已!已而為知者,殆而已矣!為善無近名,為惡無近刑。緣督以為經,可以保身,可以全生,可以養親,可以盡年。庖丁為文惠君解牛,手之所觸,肩之所倚,足之所履,膝之所踦,砉然嚮然,奏刀騞然,莫不中音。合於 桑林 之舞,乃中 經首 之會。文惠君曰 嘻,善哉!技蓋...

庖丁解牛 FTP常見報錯解析

報錯資訊 500 oops vsftpd refusing to run with writable root inside chroot 原因解析 500 檔案系統許可權過大 報錯復現 伺服器端 root gaosh 17 chmod 777 var ftp 測試 root gaosh 64 lf...