需求:客戶給銷售員自己的個人資訊,銷售幫助客戶下單,此過程需要銷售人員手動複製貼上收穫位址,**,姓名等等,乙個智慧型的分詞系統可以讓銷售人員一鍵識別以上各種資訊
經過調研,找到了一下開源專案
1、word 分詞器
2、ansj 分詞器
3、mmseg4j 分詞器
4、ik-analyzer 分詞器
5、jcseg 分詞器
6、fudannlp 分詞器
7、smartcn 分詞器
8、jieba 分詞器
9、stanford 分詞器
10、hanlp 分詞器
最後選擇了hanlp,步驟官網都有,下面演示智慧型匹配位址
1
listlist = hanlp.newsegment().seg("湯姆江西省南昌市紅谷灘新區111號**12023232323");
2
system.out.println(list);
輸出
1
附上完整**
1string str = "湯姆 江西省南昌市紅谷灘新區111號 12023232323";
2string address = "";
3string phone = "";
4string name = "";
5listterms = nlptokenizer.segment(str);
6system.out.println(terms);
7for (term term : terms) else if (term.nature.startswith("m") && term.word.length() == 11)
17}
18//由於位址包含了數字,解析的時候數字成為單獨的個體,與實際不符,所以通過差集求出位址
19address = str.replace(phone, "").replace(name, "").trim();
20system.out.println("address: " + address);
執行結果
1
name: 湯姆
2
3
address: 江西省南昌市紅谷灘新區111號
---------------------
HanLP中文分詞 字典分詞
hanlp是漢語言處理的乙個重要利器。對漢語言進行處理,首先的步驟是將漢語進行分詞。漢語進行分詞的乙個比較 low 但有用的方法是字典拆分。字典拆分使用啟發式演算法 雙向文字匹配演算法,結合字典,對漢語語句和段落進行拆分的方法。from sklearn.externals import joblib...
php 中文拼音首字母自動識別
根據陣列的value分組,根據key名排序 function areaarray area,keyindex index ksort return return return 獲取中文拼音首字母 function getfirstchar s0 if fchar ord a and fchar or...
vim自動識別檔案編碼
1.檢視檔案編碼的方法 file filename 在vim中可以直接檢視檔案編碼方式 set fileencoding 即可顯示檔案編碼方式 2.設定vim使其自動識別檔案編碼 set encoding utf 8 fileencodings ucs bom,utf 8,cp936 這樣,就可以讓...