hanlp中文智慧型分詞自動識別文字提取例項

2021-09-19 21:12:16 字數 1245 閱讀 3773

需求:客戶給銷售員自己的個人資訊,銷售幫助客戶下單,此過程需要銷售人員手動複製貼上收穫位址,**,姓名等等,乙個智慧型的分詞系統可以讓銷售人員一鍵識別以上各種資訊

經過調研,找到了一下開源專案

1、word 分詞器

2、ansj 分詞器

3、mmseg4j 分詞器

4、ik-analyzer 分詞器

5、jcseg 分詞器

6、fudannlp 分詞器

7、smartcn 分詞器

8、jieba 分詞器

9、stanford 分詞器

10、hanlp 分詞器

最後選擇了hanlp,步驟官網都有,下面演示智慧型匹配位址

1   

listlist = hanlp.newsegment().seg("湯姆江西省南昌市紅谷灘新區111號**12023232323");

2    

system.out.println(list);

輸出

1   

附上完整**

1string str = "湯姆   江西省南昌市紅谷灘新區111號     12023232323";

2string address = "";

3string phone = "";

4string name = "";

5listterms = nlptokenizer.segment(str);

6system.out.println(terms);

7for (term term : terms) else if (term.nature.startswith("m") && term.word.length() == 11)

17}

18//由於位址包含了數字,解析的時候數字成為單獨的個體,與實際不符,所以通過差集求出位址

19address = str.replace(phone, "").replace(name, "").trim();

20system.out.println("address: " + address);

執行結果

1    

name: 湯姆

2    

3    

address: 江西省南昌市紅谷灘新區111號

---------------------

HanLP中文分詞 字典分詞

hanlp是漢語言處理的乙個重要利器。對漢語言進行處理,首先的步驟是將漢語進行分詞。漢語進行分詞的乙個比較 low 但有用的方法是字典拆分。字典拆分使用啟發式演算法 雙向文字匹配演算法,結合字典,對漢語語句和段落進行拆分的方法。from sklearn.externals import joblib...

php 中文拼音首字母自動識別

根據陣列的value分組,根據key名排序 function areaarray area,keyindex index ksort return return return 獲取中文拼音首字母 function getfirstchar s0 if fchar ord a and fchar or...

vim自動識別檔案編碼

1.檢視檔案編碼的方法 file filename 在vim中可以直接檢視檔案編碼方式 set fileencoding 即可顯示檔案編碼方式 2.設定vim使其自動識別檔案編碼 set encoding utf 8 fileencodings ucs bom,utf 8,cp936 這樣,就可以讓...